A Ilusão do Leaderboard
The Leaderboard Illusion
April 29, 2025
Autores: Shivalika Singh, Yiyang Nan, Alex Wang, Daniel D'Souza, Sayash Kapoor, Ahmet Üstün, Sanmi Koyejo, Yuntian Deng, Shayne Longpre, Noah Smith, Beyza Ermis, Marzieh Fadaee, Sara Hooker
cs.AI
Resumo
A medição do progresso é fundamental para o avanço de qualquer campo científico. À medida que os benchmarks assumem um papel cada vez mais central, eles também se tornam mais suscetíveis a distorções. O Chatbot Arena emergiu como o principal ranking para classificar os sistemas de IA mais capazes. No entanto, neste trabalho, identificamos questões sistemáticas que resultaram em um campo de jogo distorcido. Descobrimos que práticas não divulgadas de testes privados beneficiam um pequeno grupo de provedores, que conseguem testar múltiplas variantes antes do lançamento público e retirar pontuações, se desejado. Estabelecemos que a capacidade desses provedores de escolher a melhor pontuação leva a resultados enviesados no Arena devido à divulgação seletiva de desempenho. Em um caso extremo, identificamos 27 variantes privadas de LLMs testadas pela Meta no período que antecedeu o lançamento do Llama-4. Também constatamos que modelos proprietários fechados são amostrados com maior frequência (número de batalhas) e têm menos modelos removidos do arena em comparação com alternativas de peso aberto e código aberto. Ambas as políticas resultam em grandes assimetrias de acesso a dados ao longo do tempo. Provedores como Google e OpenAI receberam, respectivamente, 19,2% e 20,4% de todos os dados do arena. Em contraste, 83 modelos de peso aberto combinados receberam apenas 29,7% do total de dados. Mostramos que o acesso aos dados do Chatbot Arena traz benefícios substanciais; mesmo dados adicionais limitados podem resultar em ganhos de desempenho relativo de até 112% na distribuição do arena, com base em nossas estimativas conservadoras. Juntas, essas dinâmicas resultam em sobreajuste a características específicas do Arena, em vez de refletir a qualidade geral do modelo. O Arena é construído sobre os esforços significativos tanto dos organizadores quanto de uma comunidade aberta que mantém essa valiosa plataforma de avaliação. Oferecemos recomendações práticas para reformar a estrutura de avaliação do Chatbot Arena e promover benchmarks mais justos e transparentes para o campo.
English
Measuring progress is fundamental to the advancement of any scientific field.
As benchmarks play an increasingly central role, they also grow more
susceptible to distortion. Chatbot Arena has emerged as the go-to leaderboard
for ranking the most capable AI systems. Yet, in this work we identify
systematic issues that have resulted in a distorted playing field. We find that
undisclosed private testing practices benefit a handful of providers who are
able to test multiple variants before public release and retract scores if
desired. We establish that the ability of these providers to choose the best
score leads to biased Arena scores due to selective disclosure of performance
results. At an extreme, we identify 27 private LLM variants tested by Meta in
the lead-up to the Llama-4 release. We also establish that proprietary closed
models are sampled at higher rates (number of battles) and have fewer models
removed from the arena than open-weight and open-source alternatives. Both
these policies lead to large data access asymmetries over time. Providers like
Google and OpenAI have received an estimated 19.2% and 20.4% of all data on the
arena, respectively. In contrast, a combined 83 open-weight models have only
received an estimated 29.7% of the total data. We show that access to Chatbot
Arena data yields substantial benefits; even limited additional data can result
in relative performance gains of up to 112% on the arena distribution, based on
our conservative estimates. Together, these dynamics result in overfitting to
Arena-specific dynamics rather than general model quality. The Arena builds on
the substantial efforts of both the organizers and an open community that
maintains this valuable evaluation platform. We offer actionable
recommendations to reform the Chatbot Arena's evaluation framework and promote
fairer, more transparent benchmarking for the fieldSummary
AI-Generated Summary