Chatbot Arena: Eine offene Plattform zur Bewertung von LLMs anhand menschlicher Präferenzen
Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference
March 7, 2024
Autoren: Wei-Lin Chiang, Lianmin Zheng, Ying Sheng, Anastasios Nikolas Angelopoulos, Tianle Li, Dacheng Li, Hao Zhang, Banghua Zhu, Michael Jordan, Joseph E. Gonzalez, Ion Stoica
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben neue Fähigkeiten und Anwendungen erschlossen; dennoch bleiben die Bewertung der Übereinstimmung mit menschlichen Präferenzen weiterhin eine Herausforderung. Um dieses Problem anzugehen, stellen wir Chatbot Arena vor, eine offene Plattform zur Bewertung von LLMs basierend auf menschlichen Präferenzen. Unsere Methodik verwendet einen paarweisen Vergleichsansatz und nutzt Eingaben einer vielfältigen Benutzerbasis durch Crowdsourcing. Die Plattform ist seit mehreren Monaten in Betrieb und hat über 240.000 Stimmen gesammelt. Dieser Artikel beschreibt die Plattform, analysiert die bisher gesammelten Daten und erläutert die bewährten statistischen Methoden, die wir für eine effiziente und genaue Bewertung und Rangfolge der Modelle verwenden. Wir bestätigen, dass die durch Crowdsourcing generierten Fragen ausreichend vielfältig und unterscheidend sind und dass die durch Crowdsourcing generierten menschlichen Stimmen gut mit denen von Experten übereinstimmen. Diese Analysen bilden gemeinsam eine solide Grundlage für die Glaubwürdigkeit von Chatbot Arena. Aufgrund seines einzigartigen Werts und seiner Offenheit hat sich Chatbot Arena als eine der meistzitierten LLM-Bestenlisten etabliert, die von führenden LLM-Entwicklern und Unternehmen weit verbreitet zitiert wird. Unsere Demo ist öffentlich unter https://chat.lmsys.org verfügbar.
English
Large Language Models (LLMs) have unlocked new capabilities and applications;
however, evaluating the alignment with human preferences still poses
significant challenges. To address this issue, we introduce Chatbot Arena, an
open platform for evaluating LLMs based on human preferences. Our methodology
employs a pairwise comparison approach and leverages input from a diverse user
base through crowdsourcing. The platform has been operational for several
months, amassing over 240K votes. This paper describes the platform, analyzes
the data we have collected so far, and explains the tried-and-true statistical
methods we are using for efficient and accurate evaluation and ranking of
models. We confirm that the crowdsourced questions are sufficiently diverse and
discriminating and that the crowdsourced human votes are in good agreement with
those of expert raters. These analyses collectively establish a robust
foundation for the credibility of Chatbot Arena. Because of its unique value
and openness, Chatbot Arena has emerged as one of the most referenced LLM
leaderboards, widely cited by leading LLM developers and companies. Our demo is
publicly available at https://chat.lmsys.org.