再考:マルチラウンドテストタイム思考のスケーリングによるLLM推論能力の向上
Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking
March 25, 2025
著者: Xiaoyu Tian, Sitong Zhao, Haotian Wang, Shuaiting Chen, Yunjie Ji, Yiping Peng, Han Zhao, Xiangang Li
cs.AI
要旨
最近の大規模言語モデル(LLMs)の進歩、例えばOpenAI-o1やDeepSeek-R1などは、テスト時のスケーリングの有効性を示しており、拡張された推論プロセスがモデルの性能を大幅に向上させることが実証されています。しかしながら、現在のモデルは長文の処理や強化学習(RL)のトレーニング効率における制約に直面しています。これらの課題に対処するため、我々はシンプルでありながら効果的なテスト時スケーリング手法である「マルチラウンド思考(Multi-round Thinking)」を提案します。この手法は、前回の回答を次のラウンドのプロンプトとして活用することで、モデルの推論を反復的に洗練させます。QwQ-32BやDeepSeek-R1を含む複数のモデルを用いた広範な実験により、AIME 2024、MATH-500、GPQA-diamond、LiveCodeBenchなどの様々なベンチマークで一貫して性能向上が確認されました。例えば、QwQ-32BのAIME 2024データセットにおける精度は、80.3%(ラウンド1)から82.1%(ラウンド2)に向上し、DeepSeek-R1も同様に79.7%から82.0%に上昇しました。これらの結果は、マルチラウンド思考がモデル性能の安定した向上を達成するための広く適用可能で簡潔なアプローチであることを裏付けており、テスト時スケーリング技術の将来の発展における潜在的可能性を強調しています。キープロンプト:{元の質問プロンプト} アシスタントの前回の回答は:<answer> {前回の回答} </answer>、そして再回答してください。
English
Recent advances in large language models (LLMs), such as OpenAI-o1 and
DeepSeek-R1, have demonstrated the effectiveness of test-time scaling, where
extended reasoning processes substantially enhance model performance. Despite
this, current models are constrained by limitations in handling long texts and
reinforcement learning (RL) training efficiency. To address these issues, we
propose a simple yet effective test-time scaling approach Multi-round Thinking.
This method iteratively refines model reasoning by leveraging previous answers
as prompts for subsequent rounds. Extensive experiments across multiple models,
including QwQ-32B and DeepSeek-R1, consistently show performance improvements
on various benchmarks such as AIME 2024, MATH-500, GPQA-diamond, and
LiveCodeBench. For instance, the accuracy of QwQ-32B improved from 80.3% (Round
1) to 82.1% (Round 2) on the AIME 2024 dataset, while DeepSeek-R1 showed a
similar increase from 79.7% to 82.0%. These results confirm that Multi-round
Thinking is a broadly applicable, straightforward approach to achieving stable
enhancements in model performance, underscoring its potential for future
developments in test-time scaling techniques. The key prompt: {Original
question prompt} The assistant's previous answer is: <answer> {last round
answer} </answer>, and please re-answer.Summary
AI-Generated Summary