L'illusion du classement
The Leaderboard Illusion
April 29, 2025
Auteurs: Shivalika Singh, Yiyang Nan, Alex Wang, Daniel D'Souza, Sayash Kapoor, Ahmet Üstün, Sanmi Koyejo, Yuntian Deng, Shayne Longpre, Noah Smith, Beyza Ermis, Marzieh Fadaee, Sara Hooker
cs.AI
Résumé
Mesurer les progrès est fondamental pour l'avancement de tout domaine scientifique. Alors que les benchmarks jouent un rôle de plus en plus central, ils deviennent également plus susceptibles de distorsion. Chatbot Arena s'est imposé comme le tableau de référence pour classer les systèmes d'IA les plus performants. Pourtant, dans ce travail, nous identifions des problèmes systémiques qui ont entraîné un terrain de jeu biaisé. Nous constatons que des pratiques de tests privés non divulguées profitent à un petit nombre de fournisseurs, qui peuvent tester plusieurs variantes avant leur publication publique et retirer les scores si nécessaire. Nous démontrons que la capacité de ces fournisseurs à choisir le meilleur score conduit à des scores biaisés sur l'Arena en raison de la divulgation sélective des résultats de performance. À l'extrême, nous identifions 27 variantes privées de LLM testées par Meta en amont de la sortie de Llama-4. Nous établissons également que les modèles propriétaires fermés sont échantillonnés à des taux plus élevés (nombre de batailles) et ont moins de modèles retirés de l'arène que les alternatives open-weight et open-source. Ces deux politiques entraînent des asymétries importantes dans l'accès aux données au fil du temps. Des fournisseurs comme Google et OpenAI ont reçu respectivement environ 19,2 % et 20,4 % de toutes les données de l'arène. En revanche, 83 modèles open-weight combinés n'ont reçu qu'environ 29,7 % des données totales. Nous montrons que l'accès aux données de Chatbot Arena procure des avantages substantiels ; même des données supplémentaires limitées peuvent entraîner des gains de performance relatifs allant jusqu'à 112 % sur la distribution de l'arène, selon nos estimations prudentes. Ensemble, ces dynamiques conduisent à un surajustement aux spécificités de l'Arena plutôt qu'à la qualité générale des modèles. L'Arena repose sur les efforts considérables des organisateurs et d'une communauté ouverte qui maintient cette précieuse plateforme d'évaluation. Nous proposons des recommandations concrètes pour réformer le cadre d'évaluation de Chatbot Arena et promouvoir un benchmarking plus équitable et transparent pour le domaine.
English
Measuring progress is fundamental to the advancement of any scientific field.
As benchmarks play an increasingly central role, they also grow more
susceptible to distortion. Chatbot Arena has emerged as the go-to leaderboard
for ranking the most capable AI systems. Yet, in this work we identify
systematic issues that have resulted in a distorted playing field. We find that
undisclosed private testing practices benefit a handful of providers who are
able to test multiple variants before public release and retract scores if
desired. We establish that the ability of these providers to choose the best
score leads to biased Arena scores due to selective disclosure of performance
results. At an extreme, we identify 27 private LLM variants tested by Meta in
the lead-up to the Llama-4 release. We also establish that proprietary closed
models are sampled at higher rates (number of battles) and have fewer models
removed from the arena than open-weight and open-source alternatives. Both
these policies lead to large data access asymmetries over time. Providers like
Google and OpenAI have received an estimated 19.2% and 20.4% of all data on the
arena, respectively. In contrast, a combined 83 open-weight models have only
received an estimated 29.7% of the total data. We show that access to Chatbot
Arena data yields substantial benefits; even limited additional data can result
in relative performance gains of up to 112% on the arena distribution, based on
our conservative estimates. Together, these dynamics result in overfitting to
Arena-specific dynamics rather than general model quality. The Arena builds on
the substantial efforts of both the organizers and an open community that
maintains this valuable evaluation platform. We offer actionable
recommendations to reform the Chatbot Arena's evaluation framework and promote
fairer, more transparent benchmarking for the fieldSummary
AI-Generated Summary