Оценка — это всё, что нужно: стратегическое преувеличение возможностей рассуждения языковых моделей через дизайн оценки
Evaluation is All You Need: Strategic Overclaiming of LLM Reasoning Capabilities Through Evaluation Design
June 5, 2025
Авторы: Lin Sun, Weihong Lin, Jinzhu Wu, Yongfu Zhu, Xiaoqi Jian, Guangxiang Zhao, Change Jia, Linglin Zhang, Sai-er Hu, Yuhan Wu, Xiangzheng Zhang
cs.AI
Аннотация
Модели рассуждений, представленные серией Deepseek-R1-Distill, получили широкое распространение в сообществе открытого исходного кода благодаря их высокой производительности в таких областях, как математика, естественные науки, программирование и других. Однако наше исследование показывает, что результаты их бенчмарк-оценок подвержены значительным колебаниям, вызванным различными факторами. Незначительные различия в условиях оценки могут приводить к существенным вариациям в результатах. Подобные явления наблюдаются и в других моделях вывода с открытым исходным кодом, доработанных на основе серии Deepseek-R1-Distill, а также в модели QwQ-32B, что делает заявленные улучшения производительности трудновоспроизводимыми. В связи с этим мы выступаем за создание более строгой парадигмы оценки производительности моделей и представляем наши эмпирические оценки моделей серии Deepseek-R1-Distill.
English
Reasoning models represented by the Deepseek-R1-Distill series have been
widely adopted by the open-source community due to their strong performance in
mathematics, science, programming, and other domains. However, our study
reveals that their benchmark evaluation results are subject to significant
fluctuations caused by various factors. Subtle differences in evaluation
conditions can lead to substantial variations in results. Similar phenomena are
observed in other open-source inference models fine-tuned based on the
Deepseek-R1-Distill series, as well as in the QwQ-32B model, making their
claimed performance improvements difficult to reproduce reliably. Therefore, we
advocate for the establishment of a more rigorous paradigm for model
performance evaluation and present our empirical assessments of the
Deepseek-R1-Distill series models.