ChatPaper.aiChatPaper

Evaluation ist alles, was zählt: Strategische Übertreibung der Fähigkeiten von LLM im logischen Denken durch Evaluationsdesign

Evaluation is All You Need: Strategic Overclaiming of LLM Reasoning Capabilities Through Evaluation Design

June 5, 2025
Autoren: Lin Sun, Weihong Lin, Jinzhu Wu, Yongfu Zhu, Xiaoqi Jian, Guangxiang Zhao, Change Jia, Linglin Zhang, Sai-er Hu, Yuhan Wu, Xiangzheng Zhang
cs.AI

Zusammenfassung

Vernunftmodelle, die durch die Deepseek-R1-Distill-Serie repräsentiert werden, wurden aufgrund ihrer starken Leistung in den Bereichen Mathematik, Naturwissenschaften, Programmierung und anderen Domänen weitgehend von der Open-Source-Community übernommen. Unsere Studie zeigt jedoch, dass ihre Benchmark-Evaluierungsergebnisse erheblichen Schwankungen unterliegen, die durch verschiedene Faktoren verursacht werden. Subtile Unterschiede in den Evaluierungsbedingungen können zu erheblichen Ergebnisvariationen führen. Ähnliche Phänomene werden bei anderen Open-Source-Inferenzmodellen beobachtet, die auf der Deepseek-R1-Distill-Serie feinabgestimmt wurden, sowie beim QwQ-32B-Modell, was die behaupteten Leistungsverbesserungen schwer zuverlässig reproduzierbar macht. Daher plädieren wir für die Etablierung eines strengeren Paradigmas zur Bewertung der Modellleistung und präsentieren unsere empirischen Bewertungen der Deepseek-R1-Distill-Serie-Modelle.
English
Reasoning models represented by the Deepseek-R1-Distill series have been widely adopted by the open-source community due to their strong performance in mathematics, science, programming, and other domains. However, our study reveals that their benchmark evaluation results are subject to significant fluctuations caused by various factors. Subtle differences in evaluation conditions can lead to substantial variations in results. Similar phenomena are observed in other open-source inference models fine-tuned based on the Deepseek-R1-Distill series, as well as in the QwQ-32B model, making their claimed performance improvements difficult to reproduce reliably. Therefore, we advocate for the establishment of a more rigorous paradigm for model performance evaluation and present our empirical assessments of the Deepseek-R1-Distill series models.
PDF123June 6, 2025