Die Illusion der Bestenliste
The Leaderboard Illusion
April 29, 2025
Autoren: Shivalika Singh, Yiyang Nan, Alex Wang, Daniel D'Souza, Sayash Kapoor, Ahmet Üstün, Sanmi Koyejo, Yuntian Deng, Shayne Longpre, Noah Smith, Beyza Ermis, Marzieh Fadaee, Sara Hooker
cs.AI
Zusammenfassung
Die Messung von Fortschritten ist grundlegend für den Fortschritt in jedem wissenschaftlichen Bereich. Da Benchmarks eine zunehmend zentrale Rolle spielen, werden sie auch anfälliger für Verzerrungen. Die Chatbot Arena hat sich als führende Rangliste für die Bewertung der leistungsfähigsten KI-Systeme etabliert. In dieser Arbeit identifizieren wir jedoch systematische Probleme, die zu einem verzerrten Wettbewerbsfeld geführt haben. Wir stellen fest, dass nicht offengelegte private Testpraktiken einer Handvoll von Anbietern zugutekommen, die mehrere Varianten vor der öffentlichen Veröffentlichung testen und bei Bedarf Bewertungen zurückziehen können. Wir zeigen, dass die Fähigkeit dieser Anbieter, die besten Ergebnisse auszuwählen, zu verzerrten Arena-Bewertungen führt, da Leistungsergebnisse selektiv offengelegt werden. Im Extremfall identifizieren wir 27 private LLM-Varianten, die von Meta im Vorfeld der Llama-4-Veröffentlichung getestet wurden. Wir stellen außerdem fest, dass proprietäre geschlossene Modelle mit höheren Raten (Anzahl der Vergleiche) getestet werden und weniger Modelle aus der Arena entfernt werden als Open-Weight- und Open-Source-Alternativen. Beide Praktiken führen im Laufe der Zeit zu erheblichen Datenzugriffsasymmetrien. Anbieter wie Google und OpenAI haben schätzungsweise 19,2 % bzw. 20,4 % aller Daten in der Arena erhalten. Im Gegensatz dazu haben 83 Open-Weight-Modelle zusammen nur schätzungsweise 29,7 % der Gesamtdaten erhalten. Wir zeigen, dass der Zugriff auf Chatbot-Arena-Daten erhebliche Vorteile bietet; selbst begrenzte zusätzliche Daten können zu relativen Leistungssteigerungen von bis zu 112 % auf der Arena-Verteilung führen, basierend auf unseren konservativen Schätzungen. Zusammengenommen führen diese Dynamiken zu einer Überanpassung an Arena-spezifische Dynamiken anstatt an die allgemeine Modellqualität. Die Arena basiert auf den erheblichen Bemühungen sowohl der Organisatoren als auch einer offenen Community, die diese wertvolle Evaluierungsplattform aufrechterhält. Wir bieten umsetzbare Empfehlungen, um das Bewertungsframework der Chatbot Arena zu reformieren und ein faireres, transparenteres Benchmarking für das Feld zu fördern.
English
Measuring progress is fundamental to the advancement of any scientific field.
As benchmarks play an increasingly central role, they also grow more
susceptible to distortion. Chatbot Arena has emerged as the go-to leaderboard
for ranking the most capable AI systems. Yet, in this work we identify
systematic issues that have resulted in a distorted playing field. We find that
undisclosed private testing practices benefit a handful of providers who are
able to test multiple variants before public release and retract scores if
desired. We establish that the ability of these providers to choose the best
score leads to biased Arena scores due to selective disclosure of performance
results. At an extreme, we identify 27 private LLM variants tested by Meta in
the lead-up to the Llama-4 release. We also establish that proprietary closed
models are sampled at higher rates (number of battles) and have fewer models
removed from the arena than open-weight and open-source alternatives. Both
these policies lead to large data access asymmetries over time. Providers like
Google and OpenAI have received an estimated 19.2% and 20.4% of all data on the
arena, respectively. In contrast, a combined 83 open-weight models have only
received an estimated 29.7% of the total data. We show that access to Chatbot
Arena data yields substantial benefits; even limited additional data can result
in relative performance gains of up to 112% on the arena distribution, based on
our conservative estimates. Together, these dynamics result in overfitting to
Arena-specific dynamics rather than general model quality. The Arena builds on
the substantial efforts of both the organizers and an open community that
maintains this valuable evaluation platform. We offer actionable
recommendations to reform the Chatbot Arena's evaluation framework and promote
fairer, more transparent benchmarking for the fieldSummary
AI-Generated Summary