Um Olhar Sóbrio sobre o Progresso no Raciocínio de Modelos de Linguagem: Armadilhas e Caminhos para Reprodutibilidade
A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility
April 9, 2025
Autores: Andreas Hochlehnert, Hardik Bhatnagar, Vishaal Udandarao, Samuel Albanie, Ameya Prabhu, Matthias Bethge
cs.AI
Resumo
O raciocínio emergiu como a próxima grande fronteira para modelos de linguagem (LMs), com avanços rápidos tanto em laboratórios acadêmicos quanto industriais. No entanto, esse progresso frequentemente supera o rigor metodológico, com muitas avaliações dependendo de práticas de benchmarking que carecem de transparência, robustez ou fundamentação estatística. Neste trabalho, realizamos um estudo empírico abrangente e descobrimos que os benchmarks atuais de raciocínio matemático são altamente sensíveis a escolhas sutis de implementação — incluindo parâmetros de decodificação, sementes aleatórias, formatação de prompts e até mesmo configurações de hardware e frameworks de software. Os ganhos de desempenho relatados em estudos recentes frequentemente dependem de comparações pouco claras ou fontes de variância não relatadas. Para abordar essas questões, propomos um framework de avaliação padronizado com práticas recomendadas e padrões de relatório claramente definidos. Usando esse framework, reavaliamos métodos recentes e descobrimos que abordagens de aprendizado por reforço (RL) produzem apenas melhorias modestas — muito abaixo das afirmações anteriores — e são propensas a overfitting, especialmente em benchmarks de pequena escala como o AIME24. Em contraste, métodos de ajuste fino supervisionado (SFT) mostram generalização consistentemente mais forte. Para promover a reprodutibilidade, disponibilizamos todo o código, prompts e saídas dos modelos para benchmarks de raciocínio, estabelecendo bases mais rigorosas para trabalhos futuros.
English
Reasoning has emerged as the next major frontier for language models (LMs),
with rapid advances from both academic and industrial labs. However, this
progress often outpaces methodological rigor, with many evaluations relying on
benchmarking practices that lack transparency, robustness, or statistical
grounding. In this work, we conduct a comprehensive empirical study and find
that current mathematical reasoning benchmarks are highly sensitive to subtle
implementation choices - including decoding parameters, random seeds, prompt
formatting, and even hardware and software-framework configurations.
Performance gains reported in recent studies frequently hinge on unclear
comparisons or unreported sources of variance. To address these issues, we
propose a standardized evaluation framework with clearly defined best practices
and reporting standards. Using this framework, we reassess recent methods and
find that reinforcement learning (RL) approaches yield only modest improvements
- far below prior claims - and are prone to overfitting, especially on
small-scale benchmarks like AIME24. In contrast, supervised finetuning (SFT)
methods show consistently stronger generalization. To foster reproducibility,
we release all code, prompts, and model outputs, for reasoning benchmarks,
establishing more rigorous foundations for future work.Summary
AI-Generated Summary