Een Nuchtere Blik op de Vooruitgang in Redeneervaardigheden van Taalmodellen: Valkuilen en Wegen naar Reproduceerbaarheid
A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility
April 9, 2025
Auteurs: Andreas Hochlehnert, Hardik Bhatnagar, Vishaal Udandarao, Samuel Albanie, Ameya Prabhu, Matthias Bethge
cs.AI
Samenvatting
Redeneren is naar voren gekomen als het volgende grote front voor taalmodellen (LMs), met snelle vooruitgang vanuit zowel academische als industriële laboratoria. Deze vooruitgang overtreft echter vaak de methodologische strengheid, waarbij veel evaluaties vertrouwen op benchmarkpraktijken die transparantie, robuustheid of statistische onderbouwing missen. In dit werk voeren we een uitgebreide empirische studie uit en constateren we dat huidige benchmarks voor wiskundig redeneren zeer gevoelig zijn voor subtiele implementatiekeuzes - waaronder decodeerparameters, willekeurige seeds, promptopmaak, en zelfs hardware- en softwareframeworkconfiguraties. Prestatieverbeteringen die in recente studies worden gerapporteerd, hangen vaak af van onduidelijke vergelijkingen of niet-gerapporteerde bronnen van variantie. Om deze problemen aan te pakken, stellen we een gestandaardiseerd evaluatieraamwerk voor met duidelijk gedefinieerde best practices en rapportagestandaarden. Met behulp van dit raamwerk herbeoordelen we recente methoden en constateren we dat reinforcement learning (RL)-benaderingen slechts bescheiden verbeteringen opleveren - ver onder eerdere claims - en gevoelig zijn voor overfitting, vooral op kleinschalige benchmarks zoals AIME24. Daarentegen tonen supervised finetuning (SFT)-methoden consistent sterkere generalisatie. Om reproduceerbaarheid te bevorderen, maken we alle code, prompts en modeloutputs voor redeneerbenchmarks openbaar, waarmee we een meer rigoureuze basis leggen voor toekomstig werk.
English
Reasoning has emerged as the next major frontier for language models (LMs),
with rapid advances from both academic and industrial labs. However, this
progress often outpaces methodological rigor, with many evaluations relying on
benchmarking practices that lack transparency, robustness, or statistical
grounding. In this work, we conduct a comprehensive empirical study and find
that current mathematical reasoning benchmarks are highly sensitive to subtle
implementation choices - including decoding parameters, random seeds, prompt
formatting, and even hardware and software-framework configurations.
Performance gains reported in recent studies frequently hinge on unclear
comparisons or unreported sources of variance. To address these issues, we
propose a standardized evaluation framework with clearly defined best practices
and reporting standards. Using this framework, we reassess recent methods and
find that reinforcement learning (RL) approaches yield only modest improvements
- far below prior claims - and are prone to overfitting, especially on
small-scale benchmarks like AIME24. In contrast, supervised finetuning (SFT)
methods show consistently stronger generalization. To foster reproducibility,
we release all code, prompts, and model outputs, for reasoning benchmarks,
establishing more rigorous foundations for future work.