Chatbot Arena: Una Plataforma Abierta para Evaluar Modelos de Lenguaje Grande mediante Preferencias Humanas
Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference
March 7, 2024
Autores: Wei-Lin Chiang, Lianmin Zheng, Ying Sheng, Anastasios Nikolas Angelopoulos, Tianle Li, Dacheng Li, Hao Zhang, Banghua Zhu, Michael Jordan, Joseph E. Gonzalez, Ion Stoica
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han desbloqueado nuevas capacidades y aplicaciones; sin embargo, evaluar su alineación con las preferencias humanas sigue presentando desafíos significativos. Para abordar este problema, presentamos Chatbot Arena, una plataforma abierta para evaluar LLMs basada en preferencias humanas. Nuestra metodología emplea un enfoque de comparación por pares y aprovecha la contribución de una base de usuarios diversa a través de crowdsourcing. La plataforma ha estado operativa durante varios meses, acumulando más de 240K votos. Este artículo describe la plataforma, analiza los datos recopilados hasta el momento y explica los métodos estadísticos probados que utilizamos para una evaluación y clasificación eficiente y precisa de los modelos. Confirmamos que las preguntas generadas por crowdsourcing son lo suficientemente diversas y discriminantes, y que los votos humanos obtenidos mediante crowdsourcing concuerdan bien con los de evaluadores expertos. Estos análisis establecen colectivamente una base sólida para la credibilidad de Chatbot Arena. Debido a su valor único y apertura, Chatbot Arena se ha convertido en una de las tablas de clasificación de LLMs más referenciadas, ampliamente citada por desarrolladores y empresas líderes en el campo. Nuestra demostración está disponible públicamente en https://chat.lmsys.org.
English
Large Language Models (LLMs) have unlocked new capabilities and applications;
however, evaluating the alignment with human preferences still poses
significant challenges. To address this issue, we introduce Chatbot Arena, an
open platform for evaluating LLMs based on human preferences. Our methodology
employs a pairwise comparison approach and leverages input from a diverse user
base through crowdsourcing. The platform has been operational for several
months, amassing over 240K votes. This paper describes the platform, analyzes
the data we have collected so far, and explains the tried-and-true statistical
methods we are using for efficient and accurate evaluation and ranking of
models. We confirm that the crowdsourced questions are sufficiently diverse and
discriminating and that the crowdsourced human votes are in good agreement with
those of expert raters. These analyses collectively establish a robust
foundation for the credibility of Chatbot Arena. Because of its unique value
and openness, Chatbot Arena has emerged as one of the most referenced LLM
leaderboards, widely cited by leading LLM developers and companies. Our demo is
publicly available at https://chat.lmsys.org.