ChatPaper.aiChatPaper

언어 모델 추론의 진보에 대한 냉철한 평가: 재현성의 함정과 해결 방안

A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility

April 9, 2025
저자: Andreas Hochlehnert, Hardik Bhatnagar, Vishaal Udandarao, Samuel Albanie, Ameya Prabhu, Matthias Bethge
cs.AI

초록

추론 능력은 언어 모델(LMs)의 다음 주요 프론티어로 부상하며, 학계와 산업계 연구실에서 빠른 발전을 이루고 있습니다. 그러나 이러한 진전은 종종 방법론적 엄격성을 앞지르며, 많은 평가가 투명성, 견고성 또는 통계적 근거가 부족한 벤치마킹 관행에 의존하고 있습니다. 본 연구에서는 포괄적인 실증 연구를 수행하여 현재의 수학적 추론 벤치마크가 디코딩 매개변수, 랜덤 시드, 프롬프트 포맷팅, 심지어 하드웨어 및 소프트웨어 프레임워크 구성과 같은 미묘한 구현 선택에 매우 민감하다는 사실을 발견했습니다. 최근 연구에서 보고된 성능 향상은 종종 불명확한 비교나 보고되지 않은 변동 요인에 의존하고 있습니다. 이러한 문제를 해결하기 위해, 우리는 명확히 정의된 모범 사례와 보고 기준을 포함한 표준화된 평가 프레임워크를 제안합니다. 이 프레임워크를 사용하여 최근 방법들을 재평가한 결과, 강화 학습(RL) 접근법은 이전 주장에 비해 훨씬 미미한 개선만을 보이며, 특히 AIME24와 같은 소규모 벤치마크에서 과적합되기 쉬운 것으로 나타났습니다. 반면, 지도 미세 조정(SFT) 방법은 일관되게 더 강력한 일반화 능력을 보였습니다. 재현성을 촉진하기 위해, 우리는 모든 코드, 프롬프트 및 모델 출력을 공개하여 추론 벤치마크에 대한 더 엄격한 기반을 마련함으로써 향후 연구를 위한 더 견고한 토대를 구축했습니다.
English
Reasoning has emerged as the next major frontier for language models (LMs), with rapid advances from both academic and industrial labs. However, this progress often outpaces methodological rigor, with many evaluations relying on benchmarking practices that lack transparency, robustness, or statistical grounding. In this work, we conduct a comprehensive empirical study and find that current mathematical reasoning benchmarks are highly sensitive to subtle implementation choices - including decoding parameters, random seeds, prompt formatting, and even hardware and software-framework configurations. Performance gains reported in recent studies frequently hinge on unclear comparisons or unreported sources of variance. To address these issues, we propose a standardized evaluation framework with clearly defined best practices and reporting standards. Using this framework, we reassess recent methods and find that reinforcement learning (RL) approaches yield only modest improvements - far below prior claims - and are prone to overfitting, especially on small-scale benchmarks like AIME24. In contrast, supervised finetuning (SFT) methods show consistently stronger generalization. To foster reproducibility, we release all code, prompts, and model outputs, for reasoning benchmarks, establishing more rigorous foundations for future work.

Summary

AI-Generated Summary

PDF213April 10, 2025