평가가 전부다: 평가 설계를 통한 LLM 추론 능력의 전략적 과대 포장
Evaluation is All You Need: Strategic Overclaiming of LLM Reasoning Capabilities Through Evaluation Design
June 5, 2025
저자: Lin Sun, Weihong Lin, Jinzhu Wu, Yongfu Zhu, Xiaoqi Jian, Guangxiang Zhao, Change Jia, Linglin Zhang, Sai-er Hu, Yuhan Wu, Xiangzheng Zhang
cs.AI
초록
Deepseek-R1-Distill 시리즈로 대표되는 추론 모델들은 수학, 과학, 프로그래밍 등 다양한 영역에서 강력한 성능을 보이며 오픈소스 커뮤니티에서 널리 채택되고 있습니다. 그러나 우리의 연구에 따르면, 이러한 모델들의 벤치마크 평가 결과는 다양한 요인에 의해 상당한 변동성을 보입니다. 평가 조건의 미세한 차이만으로도 결과에 큰 변화가 발생할 수 있습니다. 이와 유사한 현상은 Deepseek-R1-Distill 시리즈를 기반으로 미세 조정된 다른 오픈소스 추론 모델들뿐만 아니라 QwQ-32B 모델에서도 관찰되며, 이로 인해 주장된 성능 개선을 신뢰성 있게 재현하기가 어렵습니다. 따라서 우리는 모델 성능 평가를 위한 보다 엄격한 패러다임의 수립을 주장하며, Deepseek-R1-Distill 시리즈 모델들에 대한 경험적 평가 결과를 제시합니다.
English
Reasoning models represented by the Deepseek-R1-Distill series have been
widely adopted by the open-source community due to their strong performance in
mathematics, science, programming, and other domains. However, our study
reveals that their benchmark evaluation results are subject to significant
fluctuations caused by various factors. Subtle differences in evaluation
conditions can lead to substantial variations in results. Similar phenomena are
observed in other open-source inference models fine-tuned based on the
Deepseek-R1-Distill series, as well as in the QwQ-32B model, making their
claimed performance improvements difficult to reproduce reliably. Therefore, we
advocate for the establishment of a more rigorous paradigm for model
performance evaluation and present our empirical assessments of the
Deepseek-R1-Distill series models.