ChatPaper.aiChatPaper

La Valutazione è Tutto Ciò che Serve: Sovraaffermazioni Strategiche sulle Capacità di Ragionamento dei Modelli Linguistici Attraverso il Design della Valutazione

Evaluation is All You Need: Strategic Overclaiming of LLM Reasoning Capabilities Through Evaluation Design

June 5, 2025
Autori: Lin Sun, Weihong Lin, Jinzhu Wu, Yongfu Zhu, Xiaoqi Jian, Guangxiang Zhao, Change Jia, Linglin Zhang, Sai-er Hu, Yuhan Wu, Xiangzheng Zhang
cs.AI

Abstract

I modelli di ragionamento rappresentati dalla serie Deepseek-R1-Distill sono stati ampiamente adottati dalla comunità open source grazie alle loro prestazioni elevate in ambiti come la matematica, le scienze, la programmazione e altri domini. Tuttavia, il nostro studio rivela che i loro risultati di valutazione benchmark sono soggetti a significative fluttuazioni causate da vari fattori. Differenze sottili nelle condizioni di valutazione possono portare a variazioni sostanziali nei risultati. Fenomeni simili sono osservati anche in altri modelli di inferenza open source ottimizzati sulla base della serie Deepseek-R1-Distill, nonché nel modello QwQ-32B, rendendo difficile riprodurre in modo affidabile i miglioramenti di prestazioni dichiarati. Pertanto, sosteniamo l'istituzione di un paradigma più rigoroso per la valutazione delle prestazioni dei modelli e presentiamo le nostre valutazioni empiriche sui modelli della serie Deepseek-R1-Distill.
English
Reasoning models represented by the Deepseek-R1-Distill series have been widely adopted by the open-source community due to their strong performance in mathematics, science, programming, and other domains. However, our study reveals that their benchmark evaluation results are subject to significant fluctuations caused by various factors. Subtle differences in evaluation conditions can lead to substantial variations in results. Similar phenomena are observed in other open-source inference models fine-tuned based on the Deepseek-R1-Distill series, as well as in the QwQ-32B model, making their claimed performance improvements difficult to reproduce reliably. Therefore, we advocate for the establishment of a more rigorous paradigm for model performance evaluation and present our empirical assessments of the Deepseek-R1-Distill series models.
PDF193June 6, 2025