ChatPaper.aiChatPaper

Avaliação é Tudo o que Você Precisa: Superestimação Estratégica das Capacidades de Raciocínio de LLMs por meio do Design de Avaliação

Evaluation is All You Need: Strategic Overclaiming of LLM Reasoning Capabilities Through Evaluation Design

June 5, 2025
Autores: Lin Sun, Weihong Lin, Jinzhu Wu, Yongfu Zhu, Xiaoqi Jian, Guangxiang Zhao, Change Jia, Linglin Zhang, Sai-er Hu, Yuhan Wu, Xiangzheng Zhang
cs.AI

Resumo

Os modelos de raciocínio representados pela série Deepseek-R1-Distill têm sido amplamente adotados pela comunidade de código aberto devido ao seu forte desempenho em matemática, ciências, programação e outros domínios. No entanto, nosso estudo revela que os resultados de avaliação de benchmarks estão sujeitos a flutuações significativas causadas por diversos fatores. Diferenças sutis nas condições de avaliação podem levar a variações substanciais nos resultados. Fenômenos semelhantes são observados em outros modelos de inferência de código aberto ajustados com base na série Deepseek-R1-Distill, bem como no modelo QwQ-32B, tornando suas melhorias de desempenho reivindicadas difíceis de reproduzir de forma confiável. Portanto, defendemos o estabelecimento de um paradigma mais rigoroso para a avaliação do desempenho de modelos e apresentamos nossas avaliações empíricas dos modelos da série Deepseek-R1-Distill.
English
Reasoning models represented by the Deepseek-R1-Distill series have been widely adopted by the open-source community due to their strong performance in mathematics, science, programming, and other domains. However, our study reveals that their benchmark evaluation results are subject to significant fluctuations caused by various factors. Subtle differences in evaluation conditions can lead to substantial variations in results. Similar phenomena are observed in other open-source inference models fine-tuned based on the Deepseek-R1-Distill series, as well as in the QwQ-32B model, making their claimed performance improvements difficult to reproduce reliably. Therefore, we advocate for the establishment of a more rigorous paradigm for model performance evaluation and present our empirical assessments of the Deepseek-R1-Distill series models.
PDF193June 6, 2025