迪士尼彩乐园客服 UC伯克利博士生评释大模子实质可用于检修新模子
还难忘 OpenAI 前首席科学家伊利亚·苏茨克维(Ilya Sutskever)在 2024 年神经信息处理系统大会(NeurIPS迪士尼彩乐园客服,Neural Information Processing Systems)上的“预检修行将赶走”发言吗?他之是以这么说是因为:互联网上统统有用数据齐将被用来检修大模子。
这个流程也被称为预检修,包括 ChatGPT 等在内的大模子均要经过这一设施技艺“出炉”。
不外,由于现存互联网数据或将被铺张殆尽,因此伊利亚露出这个时期“无疑将驱散”。
可是,大多数业界东谈主士并未因此感到急躁,这是为什么?谜底不错先从最近火到大洋此岸的中国大模子 DeepSeek V3 提及。

曾在谷歌旗下公司 DeepMind 实习过的好意思国加州大学伯克利分校博士生查理·斯内尔(Charlie Snell)格外关心 DeepSeek V3,他不仅在 X 上转发了 DeepSeek V3 的干系实质,还挑升问了问 OpenAI 里面东谈主士关于 DeepSeek V3 的倡导。
OpenAI 里面东谈主士告诉斯内尔,DeepSeek 团队可能是第一个复现 OpenAI o1 的团队,可是 OpenAI 的东谈主也不知谈 DeepSeek 是若何竣事快速复现的。
好意思国科技博客 TechCrunch 的一份论说也暴露,DeepSeek 可能使用了 OpenAI o1 的输出来检修我方的 AI 模子,更热切的是 DeepSeek V3 在行业基准测试中阐发也十分出色。
这证据,若是 OpenAI o1 模子的输出优于该公司的 GPT-4 模子,那么表面上 o1 的输出实质就能被用于检修新的大模子。
比如说:假定 o1 在特定的 AI 基准上赢得 90% 的分数,若是将这些谜底输入 GPT-4,那么它的分数也能达到 90%。
假如你有大齐的教唆词,那么就能从 o1 中赢得一堆数据,从而创建大齐新的检修示例(数据),并能基于此预检修一个新模子,或者络续检修 GPT-4 从而让它变得更好。
因此,斯内尔怀疑 AI 推理模子的输出也曾被用于检修新模子,并觉得这些合成数据很有可能比互联网上的已稀有据更好。

事实上,2024 年 8 月,当斯内尔还在 DeepMind 实习的时候,他和互助者发了一篇题为《膨大模子测试时辰计较比膨大模子参数更有用》(Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters)的论文,在这篇论文中斯内尔也曾针对“预检修行将赶走”的问题给出了搞定决策。
沟通中,斯内尔等东谈主揭示了测试时辰计较(test-time compute)这一政策的平允。测试时辰计较政策,是一种通过峰值数据墙(peak-data wall)来让大模子得到捏续迭代的潜在治安。
该工夫能将查询分割成更小的任务迪士尼彩乐园客服,将每个任务齐酿成能被大模子处理的新教唆。
其中,每一步齐需要运转一个新央求,在 AI 鸿沟这被称为推理阶段。在一系列的推理中,问题的每个部分齐能得到搞定。在莫得得到正如实质或莫得得到更好实质之前,模子不会投入下一阶段。
沟通期间,斯内尔和互助者将稀疏测试时辰计较(additional test-time compute)的输出用于提取基础模子,从而让模子竣事自我改动,借此发现新模子在数学任务和具有明确谜底的任务中,阐发得比之前的顶级大模子还要好。
因此,假如将这些更高质地的输出算作新的检修数据,就能让已有大模子生成更好的国法,或者径直打造出更好的大模子。
而他当初之是以和互助者开展这项沟通,亦然发现数据供应有限这一问题梗阻了预检修的络续膨大。
他露出,若是能让大模子使用稀疏的推理时辰计较(extra inference-time compute)并陶冶其输出,那么这就是让它生成更好的合成数据的一种形势。这就等于首创了一个寻找检修数据的新起原,或能搞定刻下的大模子预检修数据瓶颈问题。

那么,斯内尔具体是若何开展这项沟通的?沟通中,斯内尔等东谈主针对膨大测试时辰计较的不同治安进行了系统分析,旨在进一步陶冶膨大测试时辰计较的成果。
在膨大测试时辰计较这一治安中,最毛糙的、亦然此前被沟通得最久了的治安即是“N 选最好采样”,迪士尼彩乐园客服即从基础大模子中“并行”抽样 N 个输出,并字据学习到的考证器或奖励模子,聘用得分最高的输出。
关联词,这种治安并不是使用测试时辰计较来改动大模子的唯独治安。为明显解膨大测试时辰计较的平允,斯内尔等东谈主使用挑升微调的 PaLM-2 模子针对难度较高的 MATH 基准开展实际。
期间他和互助者用到了如下两个治安:第一个治安是修改不正确的谜底,第二个治安是使用基于流程的奖励模子来考证谜底中各个设施的正确性。
通过这两种治安,斯内尔等东谈主发现特定测试时辰计较政策的有用性在很猛进度上取决于以下两点:其一,取决于手头特定问题的性质;其二,取决于所使用的基础大模子。
针对测试时辰计较膨大政策(test-time compute scaling strategy)加以改动之后,斯内尔等东谈主但愿了解测试时辰计较到底不错在多猛进度上替代稀疏的预检修。
于是,他和互助者在具有稀疏测试时辰计较的较小模子和预检修 14 倍大的模子之间进行了浮点运算数匹配相比。
国法发现:岂论是在毛糙问题、中等难度问题如故在高难问题上,稀疏的测试时辰计较政策齐比膨大预检修治安愈加可取。
这证据,与其仅仅关心膨大预检修,在某些情况下使用较少的计较针对小模子开展预检修会更有用,况兼不错使用测试时辰计较政策来陶冶模子输出。
也就是说,膨大测试时辰计较也曾比膨大预检修更为可取,况兼跟着测试时辰政策的老练,只会取得更多的改动。
从永恒来看,这示意着明天在预检修期间破耗更少的浮点运算数(算力),而在推理中破耗更多的浮点运算数(算力)。

无特有偶,就连微软 CEO 萨蒂亚·纳德拉(Satya Nadella)也抒发了访佛的不雅点,他在近期一则视频播客中将推理时辰计较政策态状为“另一个膨大定律(scaling law)”。
纳德拉觉得这是一种提肥大模子智商的好治安:当进行预检修的时候,进行测试时辰采样之后,就能创建不错重新用于预检修的 tokens,从而不祥创建更高大的模子,进而运转推理。
毫无疑问,2025 年,这种治安将继承更多锻练,至于国法若何现在还需要从更多大模子身上加以考证。
参考辛苦:
https://www.businessinsider.com/ai-peak-data-google-deepmind-researchers-solution-test-time-compute-2025-1
https://medium.com/@EleventhHourEnthusiast/scaling-llm-test-time-compute-optimally-can-be-more-effective-than-scaling-model-parameters-19a0c9fb7c44
https://arxiv.org/pdf/2408.03314
运营/排版:何晨龙
国王首发:埃利斯+蒙克+穆雷++萨博尼斯;勇士首发:库里+施罗德+维金斯+追梦格林+戴维斯。开局勇士就陷入被动:蒙克抱球拉杆上篮,穆雷弧顶扔三分,萨博尼斯中投,追梦格林三分球帮助勇士止血,国王埃利斯和德罗赞内外开花。中段维金斯轰三分+库里上篮连续拿分,但蒙克再度打停勇士。后半段蒙克和许尔特下起三分雨,维金斯继续强攻,许尔特的三分球再度打停勇士,格林失误太多了!库里三分球止血,萨博尼斯和德罗赞单打继续上分,节末希尔德和施罗德连拿4分止血。
③、对面虽然少了,反而人人福克斯,蒙克砍下26分12助攻,小萨打爆勇士内线,13中10,得到22分,替补席的许尔特3分6中4,得到16分,卡特得到13分,国王首发5人全部得分上双,全队7人得分上双。