在测试时最优地扩展LLM计算量可能比扩展模型参数更有效。Scaling LLM Test-Time Compute Optimally can be More Effective than
Scaling Model Parameters
通过使用更多的测试时间计算来使LLMs改善其输出是构建能够在开放式自然语言上运行的普遍自我改进代理的关键步骤。本文研究了LLMs推理时间计算的扩展,重点关注回答以下问题:如果允许LLM使用固定但非平凡量的推理时间计算,它在具有挑战性提示时可以提高多少性能?回答这个问题不仅对LLMs的可实现性能有影响,还对LLM预训练的未来以及如何权衡推理时间和预训练计算有影响。尽管这很重要,但很少有研究尝试理解各种测试时间推理方法的扩展行为。此外,当前工作在很大程度上为一些策略提供了负面结果。在这项工作中,我们分析了两种主要机制来扩展测试时间计算:(1)针对密集的基于过程的验证器奖励模型进行搜索;以及(2)在测试时间根据提示自适应地更新模型对响应的分布。我们发现,在这两种情况下,不同方法扩展测试时间计算的有效性在很大程度上取决于提示的难度。这一观察结果促使应用“计算最优”扩展策略,该策略可最有效地根据提示自适应地分配测试时间计算。使用这种计算最优策略,我们可以将测试时间计算的效率提高超过4倍,与最佳N基线相比。此外,在FLOPs匹配评估中,我们发现在较小基础模型取得某种程度的非平凡成功率的问题上,测试时间计算可以用来胜过14倍大的模型。