L'illusione della classifica
The Leaderboard Illusion
April 29, 2025
Autori: Shivalika Singh, Yiyang Nan, Alex Wang, Daniel D'Souza, Sayash Kapoor, Ahmet Üstün, Sanmi Koyejo, Yuntian Deng, Shayne Longpre, Noah Smith, Beyza Ermis, Marzieh Fadaee, Sara Hooker
cs.AI
Abstract
Misurare i progressi è fondamentale per l'avanzamento di qualsiasi campo scientifico.
Man mano che i benchmark assumono un ruolo sempre più centrale, diventano anche più suscettibili a distorsioni. Chatbot Arena è emersa come la classifica di riferimento per classificare i sistemi di intelligenza artificiale più capaci. Tuttavia, in questo lavoro identifichiamo problemi sistemici che hanno portato a un campo di gioco distorto. Rileviamo che pratiche di test private non dichiarate avvantaggiano un numero ristretto di fornitori, che possono testare più varianti prima del rilascio pubblico e ritirare i punteggi se lo desiderano. Dimostriamo che la capacità di questi fornitori di scegliere il punteggio migliore porta a risultati distorti nell'Arena a causa della divulgazione selettiva dei risultati delle prestazioni. In un caso estremo, identifichiamo 27 varianti private di LLM testate da Meta in vista del rilascio di Llama-4. Inoltre, stabiliamo che i modelli proprietari chiusi vengono campionati a tassi più elevati (numero di battaglie) e hanno meno modelli rimossi dall'arena rispetto alle alternative open-weight e open-source. Entrambe queste politiche portano a grandi asimmetrie nell'accesso ai dati nel tempo. Fornitori come Google e OpenAI hanno ricevuto rispettivamente il 19,2% e il 20,4% di tutti i dati dell'arena. Al contrario, un totale di 83 modelli open-weight ha ricevuto solo il 29,7% dei dati totali. Dimostriamo che l'accesso ai dati di Chatbot Arena offre vantaggi sostanziali; anche dati aggiuntivi limitati possono portare a guadagni di prestazioni relative fino al 112% sulla distribuzione dell'arena, secondo le nostre stime conservative. Insieme, queste dinamiche portano a un overfitting verso dinamiche specifiche dell'Arena piuttosto che alla qualità generale del modello. L'Arena si basa sugli sforzi significativi sia degli organizzatori che di una comunità aperta che mantiene questa preziosa piattaforma di valutazione. Offriamo raccomandazioni pratiche per riformare il framework di valutazione di Chatbot Arena e promuovere benchmark più equi e trasparenti per il settore.
English
Measuring progress is fundamental to the advancement of any scientific field.
As benchmarks play an increasingly central role, they also grow more
susceptible to distortion. Chatbot Arena has emerged as the go-to leaderboard
for ranking the most capable AI systems. Yet, in this work we identify
systematic issues that have resulted in a distorted playing field. We find that
undisclosed private testing practices benefit a handful of providers who are
able to test multiple variants before public release and retract scores if
desired. We establish that the ability of these providers to choose the best
score leads to biased Arena scores due to selective disclosure of performance
results. At an extreme, we identify 27 private LLM variants tested by Meta in
the lead-up to the Llama-4 release. We also establish that proprietary closed
models are sampled at higher rates (number of battles) and have fewer models
removed from the arena than open-weight and open-source alternatives. Both
these policies lead to large data access asymmetries over time. Providers like
Google and OpenAI have received an estimated 19.2% and 20.4% of all data on the
arena, respectively. In contrast, a combined 83 open-weight models have only
received an estimated 29.7% of the total data. We show that access to Chatbot
Arena data yields substantial benefits; even limited additional data can result
in relative performance gains of up to 112% on the arena distribution, based on
our conservative estimates. Together, these dynamics result in overfitting to
Arena-specific dynamics rather than general model quality. The Arena builds on
the substantial efforts of both the organizers and an open community that
maintains this valuable evaluation platform. We offer actionable
recommendations to reform the Chatbot Arena's evaluation framework and promote
fairer, more transparent benchmarking for the fieldSummary
AI-Generated Summary