La Ilusión del Cuadro de Líderes
The Leaderboard Illusion
April 29, 2025
Autores: Shivalika Singh, Yiyang Nan, Alex Wang, Daniel D'Souza, Sayash Kapoor, Ahmet Üstün, Sanmi Koyejo, Yuntian Deng, Shayne Longpre, Noah Smith, Beyza Ermis, Marzieh Fadaee, Sara Hooker
cs.AI
Resumen
Medir el progreso es fundamental para el avance de cualquier campo científico. A medida que los puntos de referencia desempeñan un papel cada vez más central, también se vuelven más susceptibles a distorsiones. Chatbot Arena ha surgido como el principal tablero de clasificación para ordenar los sistemas de IA más capaces. Sin embargo, en este trabajo identificamos problemas sistemáticos que han resultado en un campo de juego distorsionado. Descubrimos que las prácticas no reveladas de pruebas privadas benefician a un puñado de proveedores que pueden probar múltiples variantes antes del lanzamiento público y retirar puntuaciones si lo desean. Establecemos que la capacidad de estos proveedores para elegir la mejor puntuación conduce a puntuaciones sesgadas en la Arena debido a la divulgación selectiva de los resultados de rendimiento. En un caso extremo, identificamos 27 variantes privadas de LLM probadas por Meta en el período previo al lanzamiento de Llama-4. También establecemos que los modelos cerrados propietarios se muestrean a tasas más altas (número de batallas) y tienen menos modelos eliminados de la arena que las alternativas de peso abierto y código abierto. Ambas políticas conducen a grandes asimetrías en el acceso a los datos con el tiempo. Proveedores como Google y OpenAI han recibido aproximadamente el 19,2% y el 20,4% de todos los datos en la arena, respectivamente. En contraste, un total de 83 modelos de peso abierto han recibido solo aproximadamente el 29,7% de los datos totales. Demostramos que el acceso a los datos de Chatbot Arena ofrece beneficios sustanciales; incluso datos adicionales limitados pueden resultar en ganancias de rendimiento relativo de hasta el 112% en la distribución de la arena, según nuestras estimaciones conservadoras. Juntos, estos dinámicas resultan en un sobreajuste a las dinámicas específicas de la Arena en lugar de la calidad general del modelo. La Arena se basa en los esfuerzos sustanciales tanto de los organizadores como de una comunidad abierta que mantiene esta valiosa plataforma de evaluación. Ofrecemos recomendaciones prácticas para reformar el marco de evaluación de Chatbot Arena y promover puntos de referencia más justos y transparentes para el campo.
English
Measuring progress is fundamental to the advancement of any scientific field.
As benchmarks play an increasingly central role, they also grow more
susceptible to distortion. Chatbot Arena has emerged as the go-to leaderboard
for ranking the most capable AI systems. Yet, in this work we identify
systematic issues that have resulted in a distorted playing field. We find that
undisclosed private testing practices benefit a handful of providers who are
able to test multiple variants before public release and retract scores if
desired. We establish that the ability of these providers to choose the best
score leads to biased Arena scores due to selective disclosure of performance
results. At an extreme, we identify 27 private LLM variants tested by Meta in
the lead-up to the Llama-4 release. We also establish that proprietary closed
models are sampled at higher rates (number of battles) and have fewer models
removed from the arena than open-weight and open-source alternatives. Both
these policies lead to large data access asymmetries over time. Providers like
Google and OpenAI have received an estimated 19.2% and 20.4% of all data on the
arena, respectively. In contrast, a combined 83 open-weight models have only
received an estimated 29.7% of the total data. We show that access to Chatbot
Arena data yields substantial benefits; even limited additional data can result
in relative performance gains of up to 112% on the arena distribution, based on
our conservative estimates. Together, these dynamics result in overfitting to
Arena-specific dynamics rather than general model quality. The Arena builds on
the substantial efforts of both the organizers and an open community that
maintains this valuable evaluation platform. We offer actionable
recommendations to reform the Chatbot Arena's evaluation framework and promote
fairer, more transparent benchmarking for the fieldSummary
AI-Generated Summary