Un regard lucide sur les progrès dans le raisonnement des modèles de langage : écueils et voies vers la reproductibilité
A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility
April 9, 2025
Auteurs: Andreas Hochlehnert, Hardik Bhatnagar, Vishaal Udandarao, Samuel Albanie, Ameya Prabhu, Matthias Bethge
cs.AI
Résumé
Le raisonnement est apparu comme la prochaine frontière majeure pour les modèles de langage (LMs), avec des avancées rapides provenant à la fois des laboratoires académiques et industriels. Cependant, ces progrès dépassent souvent la rigueur méthodologique, de nombreuses évaluations reposant sur des pratiques de benchmarking manquant de transparence, de robustesse ou de fondements statistiques. Dans ce travail, nous menons une étude empirique approfondie et constatons que les benchmarks actuels en raisonnement mathématique sont très sensibles à des choix d'implémentation subtils - incluant les paramètres de décodage, les graines aléatoires, le formatage des prompts, et même les configurations matérielles et logicielles. Les gains de performance rapportés dans les études récentes dépendent fréquemment de comparaisons floues ou de sources de variance non documentées. Pour résoudre ces problèmes, nous proposons un cadre d'évaluation standardisé avec des meilleures pratiques clairement définies et des normes de reporting. En utilisant ce cadre, nous réévaluons les méthodes récentes et constatons que les approches d'apprentissage par renforcement (RL) n'apportent que des améliorations modestes - bien en deçà des affirmations précédentes - et sont sujettes au sur-apprentissage, en particulier sur des benchmarks à petite échelle comme AIME24. En revanche, les méthodes de fine-tuning supervisé (SFT) montrent une généralisation plus forte et plus cohérente. Pour favoriser la reproductibilité, nous publions tout le code, les prompts et les sorties de modèles pour les benchmarks de raisonnement, établissant ainsi des bases plus rigoureuses pour les travaux futurs.
English
Reasoning has emerged as the next major frontier for language models (LMs),
with rapid advances from both academic and industrial labs. However, this
progress often outpaces methodological rigor, with many evaluations relying on
benchmarking practices that lack transparency, robustness, or statistical
grounding. In this work, we conduct a comprehensive empirical study and find
that current mathematical reasoning benchmarks are highly sensitive to subtle
implementation choices - including decoding parameters, random seeds, prompt
formatting, and even hardware and software-framework configurations.
Performance gains reported in recent studies frequently hinge on unclear
comparisons or unreported sources of variance. To address these issues, we
propose a standardized evaluation framework with clearly defined best practices
and reporting standards. Using this framework, we reassess recent methods and
find that reinforcement learning (RL) approaches yield only modest improvements
- far below prior claims - and are prone to overfitting, especially on
small-scale benchmarks like AIME24. In contrast, supervised finetuning (SFT)
methods show consistently stronger generalization. To foster reproducibility,
we release all code, prompts, and model outputs, for reasoning benchmarks,
establishing more rigorous foundations for future work.Summary
AI-Generated Summary