363050.com

10步优化超越强化学习仅需1条未标注数据!后训练强势破局MK体育- MK体育官方网站 SPORTS 世界杯官方指定平台

  MK,MK体育,MK体育官网,MK体育app,MK体育网页版,MK电竞,MK棋牌,MK百家乐,MK真人,MK百家乐,MK体育注册,MK平台注册,MK中国,MK体育中国,MK体育网页版,MK体育官方网站,mk官方网站,mk sports,mk体育平台app

10步优化超越强化学习仅需1条未标注数据!后训练强势破局MK体育- MK体育官方网站 MK SPORTS 世界杯官方指定平台

  【新智元导读】无监督的熵最小化(EM)方法仅需一条未标注数据和约10步优化,就能显著提升大模型在推理任务上的表现,甚至超越依赖大量数据和复杂奖励机制的强化学习(RL)。EM通过优化模型的预测分布,增强其对正确答案的置信度,为大模型后训练提供了一种更高效简洁的新思路。

  在具备强大的通用性能之后,当下大模型的研究方向已经转向了「如何解决特定且复杂的推理任务」,比如数学问题、分析物理现象或是构建编程逻辑。

  要想达到更高的性能,除了海量文本的预训练之外,往往还需要进一步的后训练。

  主流后训练方法是采用强化学习(RL),特别是结合可验证奖励的强化学习(RLVR)。

  虽然基于RL的微调可以显著提升模型性能,但其十分依赖大规模、高质量的标注数据,其训练效果也取决于开发人员设计的复杂奖励函数,需要专家知识来最大化优势信号并防止模型「奖励作弊」。

  此外,许多常用的RL算法(如PPO)需要额外的奖励模型,不仅增加了算法复杂性,多训练步骤和漫长的采样过程也会大幅提升计算开销。

  最近,Ubiquant研究团队提出一项LLM后训练的突破性研究,用13,440组大模型训练实验对比证明了一件事:

  使用使用无监督方法「单样本熵最小化」(One-shot Entropy Minimization, 简称One-shot EM),仅需一条未标注样本和约10步优化,即可在推理任务上达到甚至超越依赖成千上万条数据和精心设计的奖励机制的RL方法的效果。

  EM的核心理念是无需任何标注数据或外部监督来训练模型,仅依赖模型自身预测分布的熵(entropy)进行优化。

  其有效性基于一个关键假设和一个简单直觉:如果一个模型本身足够有能力,那么当它对其预测结果更「自信」时,也更有可能是正确的。

  具体来说,EM训练模型将其概率质量更多地集中在其最自信的输出上,即正确答案通常比错误答案具有更低的熵值。

  通过优化目标来降低模型生成序列的熵,EM可以促使模型变得更加「自信」,从而强化其在预训练阶段已经获得的能力。

  研究人员在论文中深入分析了one-shot EM的有效性,发现其与强化学习具有相似的核心特性,但从logits偏移角度来看,其对模型行为的引导方向相反。

  广泛实验表明,「温度」是影响EM训练和推理表现的关键因素,且在推理阶段与强化学习呈现相反趋势。

  给定一个输入提示x(例如一个问题或问题描述),模型根据其当前策略自回归地生成一个响应序列 y=(y1,y2,…,yT),其中T是生成序列的长度。核心思想是通过在每一步生成时最小化标记级别的熵,来减少模型对其自身预测的不确定性。

  简单而言,该损失函数鼓励模型提高对自身预测的信心,无需依赖外部监督信号或奖励函数。

  由于其完全依赖于模型本身而非外部信号,和预训练目标完全兼容,在有效简化优化过程的同时可能带来潜在对于模型内一致性的破坏。

  熵最小化(EM)的成功依赖于「模型的预测不确定性」可以作为「有意义的训练信号」。

  研究人员采用了一种基于「模型表现方差」的样本筛选方法,来选择更具有信息量的输入提示:通过计算模型多次生成结果的准确性方差,挑选模型表现不稳定的样本进行训练。

  这种方差量化了模型对给定输入的预测不一致性:低方差意味着要么对正确性有高度信心(接近完美的成功),要么对失败有高度信心(完全错误)。

  相反,表现方差大的样本更能有效驱动模型降低熵值、明确决策边界,这也是为何只用一条高质量样本,就能快速推动模型的推理性能。

  研究人员在多个数学推理任务上测试了熵最小化(EM)的效果,结果显示,仅一条样本、10步训练,EM方法即大幅提高了Qwen2.5-Math-7B的性能:

  即使只使用一个样本和极少的训练步骤(仅仅10步),EM方法极大地缩小了Qwen2.5-Math-7B与Prime-Zero-7B和RLVR-GRPO等先进的基于RL的模型之间的差距。

  特别是在AMC23基准测试中,经过EM增强的Qwen2.5-Math-7B达到了具有竞争力的70.3分,逼近领先的RL模型这些结果清晰地表明,熵最小化(EM),尽管比典型的强化学习方法更简单、数据效率更高,但在增强基础语言模型在数学推理任务上的性能方面,具有巨大的潜力。

  那么为什么熵最小化能这么有效果呢?熵在模型的训练和推理过程中起到什么样的作用呢?

  大型语言模型在生成每个token时,会先产生一组未经归一化的分数Logits,随后通过Softmax函数转换为概率分布,决定了下一个token的选择。

  因此,Logits的分布形态直接反映了模型对其预测的「置信度」和对不同token的偏好。

  通过对模型Logits分布的深入分析发现,熵最小化(EM)和强化学习(RL)对模型内部置信度的影响方向截然相反。

  研究表明,经过EM训练的模型,其Logits分布会显著地向右偏移,意味着模型在生成过程中,会反复强化自身的预测置信度。

  模型将更多的概率质量集中在少数它认为「确定」的token上,使得原本高概率的区域进一步向高分区间扩展。

  在生成和采样时,这种向右的Logits偏移是有益的,增加了高概率的候选token数量,扩展了模型能够遵循的「高概率路径」,从而潜在地增强了模型的整体生成能力。

  实验中,EM 训练后的模型在评估时表现出与采样温度的相反趋势:随着温度升高,性能下降。

  可以用贪婪解码(即总是选择概率最高的token)来解释——EM训练将概率质量高度集中在少数确定性token上,贪婪解码在这种分布下变得非常有效。

  研究人员推测,这是受到训练过程中「真实」(ground-truth)信号的影响。

  RL通过外部奖励函数来调整模型的行为,会惩罚那些模型预测概率很高但与地面真实不符的token

  通过对这些高概率但不正确的token进行降权(reranking),RL降低了其排序位置,从而导致整体Logits分布向左偏移。

  RL训练后,即使经过reranking,这些原本低概率的token往往只占据概率分布中的中间位置,需要更高的采样温度才能被选中。

  因此,RL训练的模型表现出与EM相反的趋势:性能随着采样温度的升高而提升。

  虽然RL的目标是提升模型性能,但其导致的Logits左移被认为对大型语言模型的生成过程有害,减少了采样时的高概率路径数量,可能会削弱模型的整体性能。

  Logits偏移的差异,可以通过分析Logits分布的偏度(Skewness)进行量化。

  EM训练显著提高了Logits分布的偏度,呈现右偏;而RL训练则显著降低了偏度,甚至导致左偏。

  即使在EM后再进行RL训练,Logits分布的偏度也会从EM后的高值有所下降,遵循RL的趋势,其差异和塑造了EM和RL完全不同的推理采样策略。

  在评估阶段,随着采样温度的升高,EM模型在四个数学推理基准测试上的平均表现持续下降。

  EM 更像是一个分布塑造工具(distribution shaping tool),通过强化模型自身的内在一致性来提升置信度,从而重塑了现有知识的分布。

  训练初期,EM训练损失迅速下降,模型的数学推理性能也随之提升然而,大约在训练进行到10步左右时,模型的性能达到了顶峰。

  令人意外的是,即使EM训练损失继续下降,模型的数学推理性能反而开始下降。

  这种「过度自信」现象可能是由于持续的EM训练过度放大了模型在推理过程中对其自身生成 token 的置信度。

  持续的EM训练可能会过度强化模型已有的先验偏差,导致输出结果过度集中于狭窄、过度自信的 token 分布,从而加剧算法偏差并导致输出显著偏离正确路径,最终损害了模型的实际推理性能。

  经过EM训练的模型在四个数学推理基准上的平均性能随着生成温度的升高总体呈现上升趋势。

  平均性能的最大值最初增加,随后在温度约为0.5时开始下降。较高的温度带来更好的平均推理能力,而适中的温度(如0.5)则导致更大的性能波动,从而为更高的峰值性能创造了机会。

  EM训练同时展现出显著的随机性,即便设置完全相同,四个数学推理基准测试的平均得分也会因种子不同而相差高达两倍。

  研究人员在多个不同的基础模型上评估了one-shot EM的效果,结果表明,仅通过单个样本和极少的训练步数,EM 能够持续且显著地提升这些模型在数学推理基准测试上的性能。

  然而,当应用于已经过大量RL广泛微调的模型(如 SimpleRL-Zoo)时,One-shot EM反而可能导致性能下降,与在RL之后应用EM可能锁定狭窄、过度自信的输出模式并损害性能的发现一致。

  EM的核心优势在于其极高的效率和对数据的极低需求,研究发现,One-shotEM实际上比 Multi-shotEM表现出更好的性能和更强的泛化能力。

  尽管Multi-shot使用了更多的样本,但One-shot EM通过单个样本实现了更稳定和细致的优化,有效减少了样本偏差并缩小了输出方差,进一步强化了EM在数据极度稀缺场景下的吸引力。

  熵最小化(EM)可以作为现有后训练范式的有力补充甚至起点,将EM应用在RL之前能够带来有效增益,使其成为RL的有效「启用基础」。

  EM通过其独特的Logits右偏移效应提升模型的自信度,增强模型的推理能力,并可能促进后续RL训练的更快收敛和更稳定优化。

  One-shot EM的成功,不仅在于其惊人的数据和计算效率,还在于它为LLM后训练提供了一种完全无监督的、可落地的替代方案,不需要人工标注数据,不需要构建复杂的奖励模型,极大地降低了后训练的门槛和成本。

  One-shot EM虽然高效,但也伴随超参数敏感性和一定的训练不稳定性。

  未来的工作需要探索早停标准或自适应调度机制,以及减少训练的随机性,以进一步稳定和提升EM的效果。

  EM在数学推理任务上表现出色,但能否泛化到对话、摘要、代码生成等其他领域,还需要进一步的实验验证。

  同时,当前EM在Token级别操作,未来的研究可以探索在序列或语义单元上应用结构化熵,或引入任务特定先验知识和自适应熵正则化,以释放更多潜力。

  EM作为一种分布塑造工具,与SFT、RLHF等现有后训练技术概念上正交。

  研究发现,在RL之前应用EM可以带来有益的对数分布偏移,未来的工作可以系统地研究不同的EM与RL结合的时间表、课程策略及其相互作用,探索构建更强大混合方法的可能性。

  EM甚至可以作为SFT或RLHF过程中的一种正则化策略,或作为现有模型的「信心压缩」层。

  研究结果暗示,EM通过强化高概率推理路径来增强模型的置信度,表明EM可能是一种轻量级的信心校准方法。未来的研究需要开发更精确的评估协议来量化EM的校准效应,深入理解其背后的机制。

  05月29日,国家药监局决定成立化妆品标准化技术委员会,必赢亚洲官方体育,乐鱼,精解版-彩,万博官网登录手机版

  05月29日,世界民众如何看中国?经济强国认可度最广,新必赢亚洲官网,大发888手机版登陆,ob官网最新,必赢亚洲登录网页

  05月29日,澳大利亚珀斯北部发生船只倾覆事故 一人遇难,韦德体育官网是多少,凯发k8娱乐首页,澳门至尊手机版下载,必博体育平台登录不了

  05月29日台湾气象部门发布台风“天兔”海上警报伟德体育足球kok手机版注册MG电子赌场网站威尼斯人体育官方网址

  05月29日国潮美妆成市场新宠,“龙年限定”彩妆销量飙升博之道娱乐城凯时kb88手机客户端下载百老汇app登录首页qy115千赢国际app下载

  05月29日(巴黎奥运)羽毛球女单决赛:韩国选手安洗莹摘金 中国选手何冰娇摘银大发系列彩票平台千亿福彩app下载官网两人斗地主几张牌真人滚球……

  05月29日,长沙万余名高考毕业生彩虹跑纪念青春,皇冠电子游戏注册官网,澳门星际登录,有没有斗地主炸金花二八杠,银河网上开户

  05月29日,上海将率先开展智能网联汽车准入和上路通行试点,ca88唯一登录网站,博狗在线n皇冠登录,澳门威斯尼斯网址wns

  05月29日2023年香港零售业销货价值同比升16.2%365bet手机官网ku游娱乐app备用网址澳门皇宫app电子游戏平台大全

  05月29日,(两会观察)从两会八个高频词看中国,威尼斯人网页版下载,米乐快速注册,世爵c12,明博体育可靠吗

  05月29日,国家体育总局局长:2023年我国人均体育场地面积达2.89平方米,欧预赛小组赛直播,网上界面怎么做,伟德线日,新一轮以旧换新撬动汽车大市场,网上买球的正规app,至尊赌场,和记官网,下载就送66元的游戏

  05月29日中汽协:3月汽车商品进出口总额为238.7亿美元 环比增长19.4%澳门博彩中心大发888下载地址金年会 首页asiAGame平台

  05月29日无锡梁溪邀海内外百余名青年设计师打卡“老城厢”凯发官网平台必定赢乐虎国际手机客户端App下载杏彩平台登录地址

  05月29日近距离|习主席称赞法国总理中文“讲得很好,很标准”k1体育APP贝博体育官网平台登录入口bet007球探比分188bet官方下载

  鬣狗式生存,哪吒L掀桌价山西晋城古代彩塑壁画艺术展西宁开幕 《黑神话:悟空》取景彩塑亮相必威手机端官网HB火博体育bet36体育在线宝金博线路检测

  IT狂人 第四季,度华年郁云峰:国际中文教育是增进文明互鉴的重要抓手华纳国际客服官网AG电投平台真人游戏龙源国际芒果体育平台合法吗

  时隔十八年的冷饭 P3R媒体评分解禁,我国首部“银发经济”政策文件出台广东首家自然科学类国家二级博物馆诞生官方线上飞禽走兽九州体育在哪注册日博体育注册官网直营十三张牌游戏

  我脑海中的二向箔,吧友神计算胡歌身高【新思想引领新征程】构建现代物流体系 建设全国统一大市场华夏棋牌游戏米乐m6登录入口爱游戏手机版app杏彩客户端app

  寻护者,伊以局势升级 多国展开外交行动奥运在中国·浙江杭州:攀岩运动迎来热潮 新兴奥运项目激发小镇新活力MG真人app平台最大的菠菜app凯旋门官方app跑跑扑克俱乐部合法吗

  拾荒者统治,地下城与勇士 新春版本短视频不是法外之地体育开户网站广兴国际真人游戏AG游艺城泛亚电竞菠菜

  春色寄情人,郁金香保安火了 护花喊到喉咙沙哑新加坡总理黄循财访问马来西亚必威app在哪里下载利记官网平台入口银河贵宾网是个什么网站澳门葡京赌场出台女

Copyright © 2012-2025 MK体育公司 版权所有 非商用版本