ChatPaper.aiChatPaper

Иллюзия таблицы лидеров

The Leaderboard Illusion

April 29, 2025
Авторы: Shivalika Singh, Yiyang Nan, Alex Wang, Daniel D'Souza, Sayash Kapoor, Ahmet Üstün, Sanmi Koyejo, Yuntian Deng, Shayne Longpre, Noah Smith, Beyza Ermis, Marzieh Fadaee, Sara Hooker
cs.AI

Аннотация

Измерение прогресса является основополагающим для развития любой научной области. Поскольку бенчмарки играют всё более центральную роль, они также становятся более подверженными искажениям. Chatbot Arena стала основной платформой для ранжирования наиболее мощных ИИ-систем. Однако в данной работе мы выявляем системные проблемы, которые привели к искажению условий соревнования. Мы обнаруживаем, что нераскрытые практики частного тестирования выгодны ограниченному числу провайдеров, которые могут тестировать несколько вариантов перед публичным выпуском и отзывать результаты, если это необходимо. Мы устанавливаем, что способность этих провайдеров выбирать лучший результат приводит к смещённым оценкам в Arena из-за избирательного раскрытия данных о производительности. В крайнем случае, мы выявляем 27 частных вариантов LLM, протестированных Meta перед выпуском Llama-4. Мы также показываем, что проприетарные закрытые модели чаще участвуют в тестах (количество "битв") и реже удаляются из Arena по сравнению с открытыми и open-source альтернативами. Оба этих подхода приводят к значительной асимметрии в доступе к данным с течением времени. Провайдеры, такие как Google и OpenAI, получили, по нашим оценкам, 19,2% и 20,4% всех данных на платформе соответственно. В то же время 83 open-weight модели вместе получили лишь около 29,7% от общего объёма данных. Мы демонстрируем, что доступ к данным Chatbot Arena приносит существенные преимущества; даже ограниченное дополнительное количество данных может привести к относительному улучшению производительности до 112% на распределении Arena, согласно нашим консервативным оценкам. В совокупности эти динамики приводят к переобучению на специфические особенности Arena, а не на общее качество модели. Arena основана на значительных усилиях как организаторов, так и открытого сообщества, поддерживающего эту ценную платформу для оценки. Мы предлагаем практические рекомендации для реформирования системы оценки Chatbot Arena и продвижения более справедливого и прозрачного бенчмаркинга в этой области.
English
Measuring progress is fundamental to the advancement of any scientific field. As benchmarks play an increasingly central role, they also grow more susceptible to distortion. Chatbot Arena has emerged as the go-to leaderboard for ranking the most capable AI systems. Yet, in this work we identify systematic issues that have resulted in a distorted playing field. We find that undisclosed private testing practices benefit a handful of providers who are able to test multiple variants before public release and retract scores if desired. We establish that the ability of these providers to choose the best score leads to biased Arena scores due to selective disclosure of performance results. At an extreme, we identify 27 private LLM variants tested by Meta in the lead-up to the Llama-4 release. We also establish that proprietary closed models are sampled at higher rates (number of battles) and have fewer models removed from the arena than open-weight and open-source alternatives. Both these policies lead to large data access asymmetries over time. Providers like Google and OpenAI have received an estimated 19.2% and 20.4% of all data on the arena, respectively. In contrast, a combined 83 open-weight models have only received an estimated 29.7% of the total data. We show that access to Chatbot Arena data yields substantial benefits; even limited additional data can result in relative performance gains of up to 112% on the arena distribution, based on our conservative estimates. Together, these dynamics result in overfitting to Arena-specific dynamics rather than general model quality. The Arena builds on the substantial efforts of both the organizers and an open community that maintains this valuable evaluation platform. We offer actionable recommendations to reform the Chatbot Arena's evaluation framework and promote fairer, more transparent benchmarking for the field

Summary

AI-Generated Summary

PDF191April 30, 2025