1B LLMが405B LLMを超えることは可能か?計算最適なテスト時間スケーリングの再考Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time
Scaling
テスト時間スケーリング(TTS)は、推論フェーズ中に追加の計算を使用することで、大規模言語モデル(LLMs)の性能を向上させる重要な手法です。ただし、現在の研究では、方針モデル、プロセス報酬モデル(PRMs)、および問題の難易度がTTSにどのように影響するかを体系的に分析していません。この分析の欠如は、TTS手法の理解と実用性を制限しています。本論文では、次の2つの中心的な問いに焦点を当てます:(1)異なる方針モデル、PRMs、および問題の難易度にわたるテスト時間計算をスケーリングするための最適なアプローチは何か?(2)拡張された計算がLLMsの性能を複雑なタスクでどの程度向上させることができ、このアプローチにより小さな言語モデルが大きなものを上回ることができるか?MATH-500および難解なAIME24タスクに関する包括的な実験を通じて、以下の観察結果が得られました:(1)計算最適なTTS戦略は、方針モデル、PRM、および問題の難易度の選択に大きく依存しています。 (2)計算最適なTTS戦略を使用すると、極めて小さな方針モデルが大きなモデルを上回ることがあります。例えば、1B LLMはMATH-500で405B LLMを上回ることができます。さらに、MATH-500およびAIME24の両方で、0.5B LLMはGPT-4oを上回り、3B LLMは405B LLMを上回り、7B LLMはo1およびDeepSeek-R1を上回りますが、推論効率が高くなります。これらの知見は、TTS戦略を各タスクとモデルの特性に適応させることの重要性を示し、TTSがLLMsの推論能力を向上させる有望な手法であることを示しています。