言語モデルの推論能力の進展を冷静に見つめる:再現性への課題と道筋
A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility
April 9, 2025
著者: Andreas Hochlehnert, Hardik Bhatnagar, Vishaal Udandarao, Samuel Albanie, Ameya Prabhu, Matthias Bethge
cs.AI
要旨
推論は言語モデル(LM)の次の主要なフロンティアとして台頭し、学術界と産業界の研究室で急速な進展が見られています。しかし、この進歩はしばしば方法論的な厳密性を上回り、多くの評価が透明性、堅牢性、統計的根拠を欠いたベンチマーク手法に依存しています。本研究では、包括的な実証研究を行い、現在の数学的推論ベンチマークが、デコードパラメータ、乱数シード、プロンプトのフォーマット、さらにはハードウェアやソフトウェアフレームワークの設定といった微妙な実装選択に非常に敏感であることを明らかにしました。最近の研究で報告された性能向上は、不明確な比較や報告されていない分散の源に依存していることが頻繁にあります。これらの問題に対処するため、明確に定義されたベストプラクティスと報告基準を備えた標準化された評価フレームワークを提案します。このフレームワークを用いて、最近の手法を再評価した結果、強化学習(RL)アプローチはわずかな改善しかもたらさず、以前の主張を大きく下回り、特にAIME24のような小規模ベンチマークでは過剰適合しやすいことがわかりました。一方、教師ありファインチューニング(SFT)手法は一貫して強い汎化性能を示しました。再現性を促進するため、推論ベンチマークのすべてのコード、プロンプト、モデル出力を公開し、将来の研究のためのより厳密な基盤を確立します。
English
Reasoning has emerged as the next major frontier for language models (LMs),
with rapid advances from both academic and industrial labs. However, this
progress often outpaces methodological rigor, with many evaluations relying on
benchmarking practices that lack transparency, robustness, or statistical
grounding. In this work, we conduct a comprehensive empirical study and find
that current mathematical reasoning benchmarks are highly sensitive to subtle
implementation choices - including decoding parameters, random seeds, prompt
formatting, and even hardware and software-framework configurations.
Performance gains reported in recent studies frequently hinge on unclear
comparisons or unreported sources of variance. To address these issues, we
propose a standardized evaluation framework with clearly defined best practices
and reporting standards. Using this framework, we reassess recent methods and
find that reinforcement learning (RL) approaches yield only modest improvements
- far below prior claims - and are prone to overfitting, especially on
small-scale benchmarks like AIME24. In contrast, supervised finetuning (SFT)
methods show consistently stronger generalization. To foster reproducibility,
we release all code, prompts, and model outputs, for reasoning benchmarks,
establishing more rigorous foundations for future work.Summary
AI-Generated Summary