Evaluatie is Alles Wat Je Nodig Hebt: Strategische Overclaiming van Redeneervermogens van LLM's via Evaluatieontwerp
Evaluation is All You Need: Strategic Overclaiming of LLM Reasoning Capabilities Through Evaluation Design
June 5, 2025
Auteurs: Lin Sun, Weihong Lin, Jinzhu Wu, Yongfu Zhu, Xiaoqi Jian, Guangxiang Zhao, Change Jia, Linglin Zhang, Sai-er Hu, Yuhan Wu, Xiangzheng Zhang
cs.AI
Samenvatting
Redeneermodellen vertegenwoordigd door de Deepseek-R1-Distill-serie zijn
wijdverbreid geadopteerd door de open-sourcegemeenschap vanwege hun sterke prestaties op
gebieden zoals wiskunde, wetenschap, programmeren en andere domeinen. Uit ons onderzoek
blijkt echter dat hun benchmarkevaluatieresultaten onderhevig zijn aan aanzienlijke
schommelingen veroorzaakt door diverse factoren. Subtiele verschillen in evaluatie-
omstandigheden kunnen leiden tot grote variaties in de resultaten. Soortgelijke fenomenen
worden waargenomen bij andere open-source inferentiemodellen die zijn verfijnd op basis van de
Deepseek-R1-Distill-serie, evenals bij het QwQ-32B-model, waardoor hun
geclaimde prestatieverbeteringen moeilijk betrouwbaar reproduceerbaar zijn. Daarom pleiten wij
voor de invoering van een strenger paradigma voor het evalueren van modelprestaties en presenteren wij
onze empirische beoordelingen van de Deepseek-R1-Distill-serie modellen.
English
Reasoning models represented by the Deepseek-R1-Distill series have been
widely adopted by the open-source community due to their strong performance in
mathematics, science, programming, and other domains. However, our study
reveals that their benchmark evaluation results are subject to significant
fluctuations caused by various factors. Subtle differences in evaluation
conditions can lead to substantial variations in results. Similar phenomena are
observed in other open-source inference models fine-tuned based on the
Deepseek-R1-Distill series, as well as in the QwQ-32B model, making their
claimed performance improvements difficult to reproduce reliably. Therefore, we
advocate for the establishment of a more rigorous paradigm for model
performance evaluation and present our empirical assessments of the
Deepseek-R1-Distill series models.