Трезвый взгляд на прогресс в рассуждениях языковых моделей: ловушки и пути к воспроизводимости
A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility
April 9, 2025
Авторы: Andreas Hochlehnert, Hardik Bhatnagar, Vishaal Udandarao, Samuel Albanie, Ameya Prabhu, Matthias Bethge
cs.AI
Аннотация
Рассуждения стали следующим важным рубежом для языковых моделей (ЯМ), с быстрыми достижениями как в академических, так и в промышленных лабораториях. Однако этот прогресс часто опережает методологическую строгость, при этом многие оценки основываются на практиках тестирования, которым не хватает прозрачности, устойчивости или статистической обоснованности. В данной работе мы проводим всестороннее эмпирическое исследование и обнаруживаем, что текущие бенчмарки для математических рассуждений крайне чувствительны к незначительным изменениям в реализации — включая параметры декодирования, случайные начальные значения, форматирование запросов и даже конфигурации аппаратного и программного обеспечения. Улучшения производительности, заявленные в последних исследованиях, часто зависят от неясных сравнений или неучтённых источников вариативности. Чтобы решить эти проблемы, мы предлагаем стандартизированную систему оценки с чётко определёнными лучшими практиками и стандартами отчётности. Используя эту систему, мы переоцениваем недавние методы и обнаруживаем, что подходы с обучением с подкреплением (RL) дают лишь скромные улучшения — значительно ниже предыдущих заявлений — и склонны к переобучению, особенно на небольших бенчмарках, таких как AIME24. В то же время методы тонкой настройки с учителем (SFT) демонстрируют более стабильную способность к обобщению. Для обеспечения воспроизводимости мы публикуем весь код, запросы и выходные данные моделей для бенчмарков рассуждений, закладывая более строгие основы для будущих исследований.
English
Reasoning has emerged as the next major frontier for language models (LMs),
with rapid advances from both academic and industrial labs. However, this
progress often outpaces methodological rigor, with many evaluations relying on
benchmarking practices that lack transparency, robustness, or statistical
grounding. In this work, we conduct a comprehensive empirical study and find
that current mathematical reasoning benchmarks are highly sensitive to subtle
implementation choices - including decoding parameters, random seeds, prompt
formatting, and even hardware and software-framework configurations.
Performance gains reported in recent studies frequently hinge on unclear
comparisons or unreported sources of variance. To address these issues, we
propose a standardized evaluation framework with clearly defined best practices
and reporting standards. Using this framework, we reassess recent methods and
find that reinforcement learning (RL) approaches yield only modest improvements
- far below prior claims - and are prone to overfitting, especially on
small-scale benchmarks like AIME24. In contrast, supervised finetuning (SFT)
methods show consistently stronger generalization. To foster reproducibility,
we release all code, prompts, and model outputs, for reasoning benchmarks,
establishing more rigorous foundations for future work.Summary
AI-Generated Summary