Chatbot Arena: Een Open Platform voor het Evalueren van LLM's op Basis van Menselijke Voorkeur
Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference
March 7, 2024
Auteurs: Wei-Lin Chiang, Lianmin Zheng, Ying Sheng, Anastasios Nikolas Angelopoulos, Tianle Li, Dacheng Li, Hao Zhang, Banghua Zhu, Michael Jordan, Joseph E. Gonzalez, Ion Stoica
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) hebben nieuwe mogelijkheden en toepassingen ontsloten; het evalueren van de afstemming met menselijke voorkeuren blijft echter een aanzienlijke uitdaging. Om dit probleem aan te pakken, introduceren we Chatbot Arena, een open platform voor het evalueren van LLMs op basis van menselijke voorkeuren. Onze methodologie maakt gebruik van een paarsgewijze vergelijkingsaanpak en benut input van een diverse gebruikersbasis via crowdsourcing. Het platform is al enkele maanden operationeel en heeft meer dan 240K stemmen verzameld. Dit artikel beschrijft het platform, analyseert de tot nu toe verzamelde gegevens en legt de beproefde statistische methoden uit die we gebruiken voor efficiënte en nauwkeurige evaluatie en rangschikking van modellen. We bevestigen dat de crowdsourced vragen voldoende divers en onderscheidend zijn en dat de crowdsourced menselijke stemmen goed overeenkomen met die van expertbeoordelaars. Deze analyses vormen gezamenlijk een robuuste basis voor de geloofwaardigheid van Chatbot Arena. Vanwege zijn unieke waarde en openheid is Chatbot Arena uitgegroeid tot een van de meest geraadpleegde LLM-ranglijsten, die veelvuldig wordt geciteerd door toonaangevende LLM-ontwikkelaars en bedrijven. Onze demo is openbaar beschikbaar op https://chat.lmsys.org.
English
Large Language Models (LLMs) have unlocked new capabilities and applications;
however, evaluating the alignment with human preferences still poses
significant challenges. To address this issue, we introduce Chatbot Arena, an
open platform for evaluating LLMs based on human preferences. Our methodology
employs a pairwise comparison approach and leverages input from a diverse user
base through crowdsourcing. The platform has been operational for several
months, amassing over 240K votes. This paper describes the platform, analyzes
the data we have collected so far, and explains the tried-and-true statistical
methods we are using for efficient and accurate evaluation and ranking of
models. We confirm that the crowdsourced questions are sufficiently diverse and
discriminating and that the crowdsourced human votes are in good agreement with
those of expert raters. These analyses collectively establish a robust
foundation for the credibility of Chatbot Arena. Because of its unique value
and openness, Chatbot Arena has emerged as one of the most referenced LLM
leaderboards, widely cited by leading LLM developers and companies. Our demo is
publicly available at https://chat.lmsys.org.