Chatbot Arena: Una Piattaforma Aperta per la Valutazione degli LLM Basata sulle Preferenze Umane
Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference
March 7, 2024
Autori: Wei-Lin Chiang, Lianmin Zheng, Ying Sheng, Anastasios Nikolas Angelopoulos, Tianle Li, Dacheng Li, Hao Zhang, Banghua Zhu, Michael Jordan, Joseph E. Gonzalez, Ion Stoica
cs.AI
Abstract
I Large Language Model (LLM) hanno sbloccato nuove capacità e applicazioni; tuttavia, valutare l'allineamento con le preferenze umane rappresenta ancora una sfida significativa. Per affrontare questo problema, introduciamo Chatbot Arena, una piattaforma aperta per la valutazione degli LLM basata sulle preferenze umane. La nostra metodologia utilizza un approccio di confronto a coppie e sfrutta il contributo di un'ampia base di utenti attraverso il crowdsourcing. La piattaforma è operativa da diversi mesi, raccogliendo oltre 240.000 voti. Questo articolo descrive la piattaforma, analizza i dati raccolti finora e spiega i metodi statistici collaudati che utilizziamo per una valutazione e classificazione efficiente e accurata dei modelli. Confermiamo che le domande raccolte tramite crowdsourcing sono sufficientemente diversificate e discriminanti e che i voti umani raccolti sono in buon accordo con quelli dei valutatori esperti. Queste analisi stabiliscono collettivamente una solida base per la credibilità di Chatbot Arena. Grazie al suo valore unico e alla sua apertura, Chatbot Arena è emersa come una delle classifiche di LLM più citate, ampiamente referenziata dai principali sviluppatori e aziende di LLM. La nostra demo è disponibile pubblicamente all'indirizzo https://chat.lmsys.org.
English
Large Language Models (LLMs) have unlocked new capabilities and applications;
however, evaluating the alignment with human preferences still poses
significant challenges. To address this issue, we introduce Chatbot Arena, an
open platform for evaluating LLMs based on human preferences. Our methodology
employs a pairwise comparison approach and leverages input from a diverse user
base through crowdsourcing. The platform has been operational for several
months, amassing over 240K votes. This paper describes the platform, analyzes
the data we have collected so far, and explains the tried-and-true statistical
methods we are using for efficient and accurate evaluation and ranking of
models. We confirm that the crowdsourced questions are sufficiently diverse and
discriminating and that the crowdsourced human votes are in good agreement with
those of expert raters. These analyses collectively establish a robust
foundation for the credibility of Chatbot Arena. Because of its unique value
and openness, Chatbot Arena has emerged as one of the most referenced LLM
leaderboards, widely cited by leading LLM developers and companies. Our demo is
publicly available at https://chat.lmsys.org.