De Leiderbordillusie
The Leaderboard Illusion
April 29, 2025
Auteurs: Shivalika Singh, Yiyang Nan, Alex Wang, Daniel D'Souza, Sayash Kapoor, Ahmet Üstün, Sanmi Koyejo, Yuntian Deng, Shayne Longpre, Noah Smith, Beyza Ermis, Marzieh Fadaee, Sara Hooker
cs.AI
Samenvatting
Het meten van voortgang is fundamenteel voor de vooruitgang van elk wetenschappelijk vakgebied.
Naarmate benchmarks een steeds centralere rol spelen, worden ze ook gevoeliger voor vertekening.
Chatbot Arena is uitgegroeid tot het belangrijkste scorebord voor het rangschikken van de meest capabele AI-systemen.
Toch identificeren we in dit werk systematische problemen die hebben geleid tot een vervormd speelveld.
We constateren dat niet-openbaar gemaakte privétestpraktijken een handjevol aanbieders bevoordelen die
meerdere varianten kunnen testen vóór openbare release en scores kunnen intrekken indien gewenst.
We stellen vast dat de mogelijkheid van deze aanbieders om de beste score te kiezen leidt tot bevooroordeelde Arena-scores
vanwege selectieve openbaarmaking van prestatieresultaten. In het uiterste geval identificeren we 27 privé-LLM-varianten
die door Meta zijn getest in de aanloop naar de Llama-4-release. We stellen ook vast dat propriëtaire gesloten modellen
vaker worden bemonsterd (aantal gevechten) en minder vaak uit de arena worden verwijderd dan open-weight en open-source alternatieven.
Beide beleidsmaatregelen leiden op termijn tot grote asymmetrieën in data-toegang. Aanbieders zoals Google en OpenAI hebben
naar schatting respectievelijk 19,2% en 20,4% van alle data op de arena ontvangen. Daarentegen hebben 83 open-weight modellen
samen slechts naar schatting 29,7% van de totale data ontvangen. We laten zien dat toegang tot Chatbot Arena-data aanzienlijke
voordelen oplevert; zelfs beperkte aanvullende data kan leiden tot relatieve prestatieverbeteringen van tot wel 112% op de
arena-distributie, gebaseerd op onze conservatieve schattingen. Samen resulteren deze dynamieken in overfitting aan Arena-specifieke
dynamieken in plaats van algemene modelkwaliteit. De Arena bouwt voort op de aanzienlijke inspanningen van zowel de organisatoren
als een open community die dit waardevolle evaluatieplatform in stand houdt. We bieden actiegerichte aanbevelingen om het
evaluatiekader van de Chatbot Arena te hervormen en eerlijkere, transparantere benchmarking voor het vakgebied te bevorderen.
English
Measuring progress is fundamental to the advancement of any scientific field.
As benchmarks play an increasingly central role, they also grow more
susceptible to distortion. Chatbot Arena has emerged as the go-to leaderboard
for ranking the most capable AI systems. Yet, in this work we identify
systematic issues that have resulted in a distorted playing field. We find that
undisclosed private testing practices benefit a handful of providers who are
able to test multiple variants before public release and retract scores if
desired. We establish that the ability of these providers to choose the best
score leads to biased Arena scores due to selective disclosure of performance
results. At an extreme, we identify 27 private LLM variants tested by Meta in
the lead-up to the Llama-4 release. We also establish that proprietary closed
models are sampled at higher rates (number of battles) and have fewer models
removed from the arena than open-weight and open-source alternatives. Both
these policies lead to large data access asymmetries over time. Providers like
Google and OpenAI have received an estimated 19.2% and 20.4% of all data on the
arena, respectively. In contrast, a combined 83 open-weight models have only
received an estimated 29.7% of the total data. We show that access to Chatbot
Arena data yields substantial benefits; even limited additional data can result
in relative performance gains of up to 112% on the arena distribution, based on
our conservative estimates. Together, these dynamics result in overfitting to
Arena-specific dynamics rather than general model quality. The Arena builds on
the substantial efforts of both the organizers and an open community that
maintains this valuable evaluation platform. We offer actionable
recommendations to reform the Chatbot Arena's evaluation framework and promote
fairer, more transparent benchmarking for the fieldSummary
AI-Generated Summary