小火箭设置代理模式为PAC模式

小火箭1周前苹果IOS小火箭7

全网最佳IP代理服务商- 9.9元开通-稳定的代理服务
如果您从事外贸、海外视频博主、海外推广、海外广告投放,欢迎选择我们。
让您轻易使用国外主流的聊天软件、视频网站以及社交网络等等

  【新智元导读】颠覆LLM预训练认知:预训练token数越多,模型越难调!CMU、斯坦福、哈佛、普林斯顿等四大名校提出灾难性过度训练。

  来自CMU、斯坦福、哈佛、普林斯顿「四大名校」的研究团队,用实验挑战了「预训练规模越大越好」这一传统观点。

  在实验中,研究团队发现使用3T tokens预训练的模型,表现接近于仅用1.5T tokens预训练的模型。预训练token并非越多越好!

  现实世界的证据:展示了灾难性过度训练在现有语言模型和任务中的普遍性,表明更长的预训练时间可能会在指令微调和多模态微调后导致性能下降。

  控制实验:识别出渐进敏感性是灾难性过度训练的关键机制,扩展的预训练增加了模型参数对后续更新的脆弱性。

  理论分析:在线性迁移学习框架中,提供了灾难性过度训练的正式表征,展示了增量特征学习如何导致渐进敏感性和不可避免的性能退化。

  来看看一些例子:OLMo-1B在3万亿tokens上训练后,再经过指令调优,表现比使用2.3万亿tokens版本得分下降超过2%。

  微调的表现也类似:在不同的预训练检查点小火箭设置代理模式为PAC模式,使用固定的学习率,会看到任务性能和网络数据困惑度最终都会下降。

  总体而言,在进行指令调优后,3T tokens预训练的模型表现不如2.3T tokens预训练的模型,其表现接近于仅用1.5T tokens(少了50% tokens)预训练的模型。

  与以往的研究一致,发现延长预训练能够使基础模型的性能持续提高。在我们评估的所有下游任务中,性能不断提升(图2中的虚线)。

  具体来说,在Anthropic-HH数据集上,进行指令跟随微调,经过3T tokens预训练的基础模型在响应率(AlpacaEval分数)上比用2.3T tokens的模型低了多达3%(约少了23%的tokens)。

  在各种OOD任务(如推理和问答)上,也观察到了类似的性能下降,评估基准包括ARC-Easy、ARC-Challenge、HellaSwag和PIQA等。

  图2:延长预训练可能会导致在Anthropic-HH(左)和LLaVA(右)上的微调性能下降。

  然而,预训练使用更多tokens的模型,表现出更强的遗忘现象,并在多个OOD基准测试中出现更大的性能下降。

  在某些数据集(如PIQA)上,性能下降如此严重,以至于延长预训练在后期训练后,反而会对性能产生负面影响(见图2右侧)。

  灾难性过度训练是因为在预训练过程中,模型对参数变化的敏感性逐步增强,导致在微调后更容易「遗忘」之前预训练所获得的能力。

  实验发现,修改预训练模型的参数会导致模型遗忘之前获得的能力,而这种遗忘的程度取决于参数修改的幅度。

  虽然限制后训练中参数修改的幅度可以缓解这种性能退化,但这也可能限制预训练模型的适应能力和学习能力。

  对噪声的逐渐敏感性:对于固定的扰动幅度,基础模型和扰动模型之间的困惑度变化随着预训练token数量的增加单调增加。

  同时,绘制了基础模型的绝对C4困惑度(图3右侧,虚线)。基础模型的困惑度随着预训练token数量的增加而下降。

  在此实验框架下,观察到灾难性过度训练现象的产生,其根源在于模型对噪声的敏感性随预训练进程逐步提升,与基础模型自身性能的单调增长相互作用。

  具体而言,在预训练初期,模型性能的提升速度显著超越其对噪声敏感性的增长,因此即使引入高斯扰动,模型的困惑度仍呈现净下降趋势。

  然而,当预训练进程跨越某一临界点后,模型对噪声的敏感性增长速率反超其性能提升速率,从而导致扰动后困惑度不降反升。这一现象在图3右侧清晰地展现为一个U型困惑度变化曲线中,较大的扰动与预训练的更大且更迅速的恶化相关联。

  因此,敏感性引起的恶化超过基础模型提升的点。对于较大的扰动来说,会加速这一过程,导致拐点出现在较低的token预算下。

  直观解释:更多的预训练tokens能够提升基础模型(如预期),但同时也使基础模型对噪声更敏感。

  对于大幅度的扰动,这种恶化会在较低的token预算下出现,而对于较小幅度的扰动,直到较大的token预算时,可能才会观察到灾难性过度训练。

  首先,类似于在固定幅度的高斯扰动(γ)下量化性能下降的方法,也需要以某种方式对微调进行正则化,以确保在不同的预训练检查点之间的变化程度,保持一致。

  微调中的逐渐敏感性:对于固定的学习率,困惑度的变化随着预训练token数量的增加而单调增加。

  在敏感性增加超过基础模型提升速率的拐点处,观察到灾难性过度训练。这导致了微调后C4困惑度呈现U型趋势(图5上)。

  与高斯扰动设置类似,由于较大的学习率会加速降解的增加,因此使用较大学习率训练的模型在较低的token预算下会出现拐点,并且降解更为明显。

  虽然较小的学习率通常会导致C4困惑度的降解较小,但微调模型的ID困惑度呈现不同的趋势:较大的学习率,直到某个临界点,会导致较低的ID困惑度,尽管有时也会在ID困惑度上呈现U型趋势(图5下)。

  我们将在第3.4.2节探讨,何时调整学习率以最小化ID困惑度能缓解随着预训练延长而出现的C4困惑度降解,何时又不能。

  超过某个临界点后,预训练更多tokens会导致最终微调模型的C4困惑度下降,且通常也会影响微调任务的领域内ID困惑度。

  图5|固定超参数微调下的灾难性过度训练:当使用固定超参数进行微调时,延长预训练可能会导致C4困惑度(上图)和ID困惑度(微调任务;下图)整体增加。

  因此,如果一个在更多标记上进行预训练的模型在微调时能够采用更小的学习率来获得良好的领域内表现,它就能补偿敏感度的增加。

  总体来说,实验表明,逐渐增加的敏感性在两种类型的修改下都会表现出来:非结构化的高斯噪声和结构化的微调。

  在固定的扰动幅度或固定的微调学习率下,逐渐增加的敏感性导致灾难性过度训练,因为性能的退化最终超过了延长预训练带来的提升。

  然而,在实践中,最优学习率是在目标领域内任务上进行调优的,其变化可能导致领域内性能或领域外(预训练)指标的降解。

  这突出了在延长预训练中的权衡的重要性,即最优学习率的演变最终决定了这些模型在微调时是否会发生灾难性过度训练。

  图6.超参数调优后的灾难性过度训练:即使在进行超参数调优后,延长预训练仍可能导致C4困惑度(上图)和ID困惑度(微调任务;下图)的最终降解。

  1. 恒定最优学习率:当预训练计算量T较大时,在不同token预算下采用恒定不变的最优学习率会导致域内(ID)和域外(OOD)性能同时下降(图7左)。

  2. 缓慢下降最优学习率:采用缓慢衰减的最优学习率可以提升域内性能,但会导致域外性能下降(图7中)。

  3. 快速下降最优学习率:随着预训练计算量的增加,快速衰减的最优学习率能同时提升域内和域外性能(图7右)。

  在微调时如果使用最优学习率导致灾难性过度训练,采用非最优学习率有时可以缓解降解或延迟拐点的到来。例如,在图7中,调优导致OOD损失最终降解的情况下,选择使用最小的学习率可以延迟拐点的到来。然而,这也会导致较低的ID性能。

  然而,显式的正则化方法来防止大幅度的参数更新,也可能减轻或延迟灾难性过度训练。我们将在第4节探讨一种正则化微调的理论实例。

  主要发现表明,延长预训练周期最终必然会导致模型出现逐渐增加的敏感性以及灾难性过度训练。尽管适当的正则化可以延缓这些现象的发生,但这通常会以牺牲下游任务性能为代价(参见定理4.4、4.6和4.7)。

  04月27日,25幅梵高画作将在台北展出,韩国丰满美女XXXX高潮,妮可基德曼裸被❌视频网站,逍遥阁免费网页在线观看,同性男同yaoi❤♂动漫软件,

  亚洲人 青少年 掀裙 撒尿小心🐤入🍑🍑动漫下拉观看免费看同性女女AA片动漫拳皇夏尔米被❌到爽动漫性欧美潮喷水色欲小说精品无码男友国产专区

  04月27日2023年山西产煤13.78亿吨 先进产能占比超80%福瑞控被肉到失禁动漫网站亚洲AV无码㊙️石川澪斗破苍穹美杜莎❌h黄漫在线日中新教育|四川加快教育强省建设 让教育发展成果更多更公平惠及民众岳伦高潮的A片深夜成人无码看网站骇爪哭着扒开🍑往里面注水作文18XⅩXX性XXXX69……

  04月27日,重庆姐弟坠亡案两名罪犯被执行死刑 母亲“心中石头终落地”,秘密列车电影免费完整版播放,《以神之名:信仰的背叛》,宁荣荣赤裸❌❌无遮挡,父母给小学生戴避孕套怎么办

  04月27日内蒙古自治区侨办恭贺2024新春脱女同学衣服吃的作文欧洲熟妇色❌❌❌❌欧美17.c.nom官方网站英国法国徳国意大利美女黄色肛门黄色直播网

  一触即发 第二季,周杰伦台北大巨蛋演唱会莫言:全数捐出爱心奖奖金 为弱势群体点亮希望爽好爽别拔出来玩具调教视频210fcc免费打开小舞被揉到高潮下不了床小说中国高清69❌❌❌HD更

  扭扭车男孩大学期间创办公司,Steam同意为地狱潜者2玩家退款民进中央2024年参政议政年会在武汉开幕动漫被爆❌羞羞视频网站少妇做受❌❌高潮10在线传说之下🔞同人漫画公子达达利亚被❌吸乳脱内内

  现任石破茂内阁将集体辞职,黄圣依怼杨子演技【理响中国】学好用好《习近平文化思想学习纲要》扒開腿灌牛奶拏調教动态图日本校🌸被❌出奶mob达达利亚被爆炒性色AV色香蕉一区二区蜜桃

  我发幻兽帕鲁你来猜都缝了哪些精灵,警方通报6旬男子当街伤害9岁男童向人贩子索赔6元钱!“雷公”回应争议免费🔞成年❌❌❌泡妞八重神子裸身被❌羞羞视频furry狼人Gay榨精网站鸣人小樱同人动漫

  度华年,是谁抢到了黑神话实体版中国内地奥运健儿代表团访港名单公布 含65名运动员、8名教练全棵男性艺术写线♥️丨PORNY丨在线吊起来被性器械玩弄的视频

  怎么有脑袋这么小身体那么大的动物,我知道我爱你俄国防部称俄南部军区将举行非战略核力量演习13的奶头图片qq聊骚群号码小心🐤入🍑🍑视频无广直看他把黄瓜放进了我的下面

全网最佳IP代理服务商- 9.9元开通-稳定的代理服务
如果您从事外贸、海外视频博主、海外推广、海外广告投放,欢迎选择我们。
让您轻易使用国外主流的聊天软件、视频网站以及社交网络等等

相关文章

小火箭买完了还要充值

小火箭买完了还要充值

  北京时间4月25日,NBA季后赛首轮G3尼克斯客场对阵活塞,尼克斯借助布伦森、布里奇斯、唐斯与阿奴诺比4人得分20+攻势,逐步扩大14分领先优势。活塞顽强反扑在末节追到仅差3分,布伦森...

小火箭节点免费分享

  在科技日新月异的今天,智能手机已经深深融入了人们的日常生活中,尤其是在娱乐和投注领域。随着移动互联网的发展,手机投注软件的需求日益增长,吸引了大量体育迷和彩民的关注。日前,数款基于苹果...

小火箭代理类型怎么选择

  在金融投资领域,实时掌握市场行情至关重要。MT5软件以其强大的功能和广泛的应用,成为众多投资者查看行情、进行交易的得力工具。对于投资者来说,能找到免费且优质的MT5软件下载平台,无疑是...

小火箭充值余额

  最近,苹果的粉丝们多少有些激动,因为在AltStore上居然上线了一款名为HotTub的成人应用。是的,你没听错!这款应用被戏称为“世界上第一个获得苹果认可的色情应用”。在AltSto...