ChatPaper.aiChatPaper

L'illusion du classement

The Leaderboard Illusion

April 29, 2025
Auteurs: Shivalika Singh, Yiyang Nan, Alex Wang, Daniel D'Souza, Sayash Kapoor, Ahmet Üstün, Sanmi Koyejo, Yuntian Deng, Shayne Longpre, Noah Smith, Beyza Ermis, Marzieh Fadaee, Sara Hooker
cs.AI

Résumé

Mesurer les progrès est fondamental pour l'avancement de tout domaine scientifique. Alors que les benchmarks jouent un rôle de plus en plus central, ils deviennent également plus susceptibles de distorsion. Chatbot Arena s'est imposé comme le tableau de référence pour classer les systèmes d'IA les plus performants. Pourtant, dans ce travail, nous identifions des problèmes systémiques qui ont entraîné un terrain de jeu biaisé. Nous constatons que des pratiques de tests privés non divulguées profitent à un petit nombre de fournisseurs, qui peuvent tester plusieurs variantes avant leur publication publique et retirer les scores si nécessaire. Nous démontrons que la capacité de ces fournisseurs à choisir le meilleur score conduit à des scores biaisés sur l'Arena en raison de la divulgation sélective des résultats de performance. À l'extrême, nous identifions 27 variantes privées de LLM testées par Meta en amont de la sortie de Llama-4. Nous établissons également que les modèles propriétaires fermés sont échantillonnés à des taux plus élevés (nombre de batailles) et ont moins de modèles retirés de l'arène que les alternatives open-weight et open-source. Ces deux politiques entraînent des asymétries importantes dans l'accès aux données au fil du temps. Des fournisseurs comme Google et OpenAI ont reçu respectivement environ 19,2 % et 20,4 % de toutes les données de l'arène. En revanche, 83 modèles open-weight combinés n'ont reçu qu'environ 29,7 % des données totales. Nous montrons que l'accès aux données de Chatbot Arena procure des avantages substantiels ; même des données supplémentaires limitées peuvent entraîner des gains de performance relatifs allant jusqu'à 112 % sur la distribution de l'arène, selon nos estimations prudentes. Ensemble, ces dynamiques conduisent à un surajustement aux spécificités de l'Arena plutôt qu'à la qualité générale des modèles. L'Arena repose sur les efforts considérables des organisateurs et d'une communauté ouverte qui maintient cette précieuse plateforme d'évaluation. Nous proposons des recommandations concrètes pour réformer le cadre d'évaluation de Chatbot Arena et promouvoir un benchmarking plus équitable et transparent pour le domaine.
English
Measuring progress is fundamental to the advancement of any scientific field. As benchmarks play an increasingly central role, they also grow more susceptible to distortion. Chatbot Arena has emerged as the go-to leaderboard for ranking the most capable AI systems. Yet, in this work we identify systematic issues that have resulted in a distorted playing field. We find that undisclosed private testing practices benefit a handful of providers who are able to test multiple variants before public release and retract scores if desired. We establish that the ability of these providers to choose the best score leads to biased Arena scores due to selective disclosure of performance results. At an extreme, we identify 27 private LLM variants tested by Meta in the lead-up to the Llama-4 release. We also establish that proprietary closed models are sampled at higher rates (number of battles) and have fewer models removed from the arena than open-weight and open-source alternatives. Both these policies lead to large data access asymmetries over time. Providers like Google and OpenAI have received an estimated 19.2% and 20.4% of all data on the arena, respectively. In contrast, a combined 83 open-weight models have only received an estimated 29.7% of the total data. We show that access to Chatbot Arena data yields substantial benefits; even limited additional data can result in relative performance gains of up to 112% on the arena distribution, based on our conservative estimates. Together, these dynamics result in overfitting to Arena-specific dynamics rather than general model quality. The Arena builds on the substantial efforts of both the organizers and an open community that maintains this valuable evaluation platform. We offer actionable recommendations to reform the Chatbot Arena's evaluation framework and promote fairer, more transparent benchmarking for the field

Summary

AI-Generated Summary

PDF191April 30, 2025