Chatbot Arena : Une plateforme ouverte pour l'évaluation des LLM par préférence humaine
Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference
March 7, 2024
Auteurs: Wei-Lin Chiang, Lianmin Zheng, Ying Sheng, Anastasios Nikolas Angelopoulos, Tianle Li, Dacheng Li, Hao Zhang, Banghua Zhu, Michael Jordan, Joseph E. Gonzalez, Ion Stoica
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) ont débloqué de nouvelles capacités et applications ; cependant, l'évaluation de leur alignement avec les préférences humaines reste un défi majeur. Pour résoudre ce problème, nous présentons Chatbot Arena, une plateforme ouverte pour évaluer les LLMs sur la base des préférences humaines. Notre méthodologie utilise une approche de comparaison par paires et s'appuie sur les contributions d'une base d'utilisateurs diversifiée via le crowdsourcing. La plateforme est opérationnelle depuis plusieurs mois, accumulant plus de 240 000 votes. Cet article décrit la plateforme, analyse les données collectées jusqu'à présent, et explique les méthodes statistiques éprouvées que nous utilisons pour une évaluation et un classement efficaces et précis des modèles. Nous confirmons que les questions issues du crowdsourcing sont suffisamment diversifiées et discriminantes, et que les votes humains collectés concordent bien avec ceux des évaluateurs experts. Ces analyses établissent collectivement une base solide pour la crédibilité de Chatbot Arena. Grâce à sa valeur unique et à son ouverture, Chatbot Arena est devenu l'un des classements de LLMs les plus référencés, largement cité par les principaux développeurs et entreprises de LLMs. Notre démonstration est accessible publiquement à l'adresse https://chat.lmsys.org.
English
Large Language Models (LLMs) have unlocked new capabilities and applications;
however, evaluating the alignment with human preferences still poses
significant challenges. To address this issue, we introduce Chatbot Arena, an
open platform for evaluating LLMs based on human preferences. Our methodology
employs a pairwise comparison approach and leverages input from a diverse user
base through crowdsourcing. The platform has been operational for several
months, amassing over 240K votes. This paper describes the platform, analyzes
the data we have collected so far, and explains the tried-and-true statistical
methods we are using for efficient and accurate evaluation and ranking of
models. We confirm that the crowdsourced questions are sufficiently diverse and
discriminating and that the crowdsourced human votes are in good agreement with
those of expert raters. These analyses collectively establish a robust
foundation for the credibility of Chatbot Arena. Because of its unique value
and openness, Chatbot Arena has emerged as one of the most referenced LLM
leaderboards, widely cited by leading LLM developers and companies. Our demo is
publicly available at https://chat.lmsys.org.