Una Mirada Sobria al Progreso en el Razonamiento de Modelos de Lenguaje: Obstáculos y Caminos hacia la Reproducibilidad
A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility
April 9, 2025
Autores: Andreas Hochlehnert, Hardik Bhatnagar, Vishaal Udandarao, Samuel Albanie, Ameya Prabhu, Matthias Bethge
cs.AI
Resumen
El razonamiento ha surgido como la próxima gran frontera para los modelos de lenguaje (LMs), con avances rápidos tanto en laboratorios académicos como industriales. Sin embargo, este progreso a menudo supera el rigor metodológico, ya que muchas evaluaciones dependen de prácticas de evaluación comparativa que carecen de transparencia, robustez o fundamentación estadística. En este trabajo, realizamos un estudio empírico exhaustivo y descubrimos que los puntos de referencia actuales para el razonamiento matemático son altamente sensibles a elecciones sutiles de implementación, incluyendo parámetros de decodificación, semillas aleatorias, formato de los prompts e incluso configuraciones de hardware y software. Las mejoras de rendimiento reportadas en estudios recientes frecuentemente dependen de comparaciones poco claras o fuentes de variación no reportadas. Para abordar estos problemas, proponemos un marco de evaluación estandarizado con mejores prácticas claramente definidas y estándares de reporte. Utilizando este marco, reevaluamos métodos recientes y encontramos que los enfoques de aprendizaje por refuerzo (RL) ofrecen solo mejoras modestas, muy por debajo de afirmaciones previas, y son propensos al sobreajuste, especialmente en puntos de referencia de pequeña escala como AIME24. En contraste, los métodos de ajuste fino supervisado (SFT) muestran una generalización consistentemente más fuerte. Para fomentar la reproducibilidad, publicamos todo el código, prompts y salidas de los modelos para los puntos de referencia de razonamiento, estableciendo bases más rigurosas para trabajos futuros.
English
Reasoning has emerged as the next major frontier for language models (LMs),
with rapid advances from both academic and industrial labs. However, this
progress often outpaces methodological rigor, with many evaluations relying on
benchmarking practices that lack transparency, robustness, or statistical
grounding. In this work, we conduct a comprehensive empirical study and find
that current mathematical reasoning benchmarks are highly sensitive to subtle
implementation choices - including decoding parameters, random seeds, prompt
formatting, and even hardware and software-framework configurations.
Performance gains reported in recent studies frequently hinge on unclear
comparisons or unreported sources of variance. To address these issues, we
propose a standardized evaluation framework with clearly defined best practices
and reporting standards. Using this framework, we reassess recent methods and
find that reinforcement learning (RL) approaches yield only modest improvements
- far below prior claims - and are prone to overfitting, especially on
small-scale benchmarks like AIME24. In contrast, supervised finetuning (SFT)
methods show consistently stronger generalization. To foster reproducibility,
we release all code, prompts, and model outputs, for reasoning benchmarks,
establishing more rigorous foundations for future work.Summary
AI-Generated Summary