Chatbot Arena: Uma Plataforma Aberta para Avaliação de LLMs por Preferência Humana
Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference
March 7, 2024
Autores: Wei-Lin Chiang, Lianmin Zheng, Ying Sheng, Anastasios Nikolas Angelopoulos, Tianle Li, Dacheng Li, Hao Zhang, Banghua Zhu, Michael Jordan, Joseph E. Gonzalez, Ion Stoica
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs) desbloquearam novas capacidades e aplicações; no entanto, avaliar o alinhamento com as preferências humanas ainda apresenta desafios significativos. Para abordar essa questão, introduzimos o Chatbot Arena, uma plataforma aberta para avaliação de LLMs com base nas preferências humanas. Nossa metodologia emprega uma abordagem de comparação pareada e aproveita a contribuição de uma base diversificada de usuários por meio de crowdsourcing. A plataforma está operacional há vários meses, acumulando mais de 240 mil votos. Este artigo descreve a plataforma, analisa os dados que coletamos até agora e explica os métodos estatísticos comprovados que estamos utilizando para uma avaliação e classificação eficiente e precisa dos modelos. Confirmamos que as perguntas crowdsourced são suficientemente diversas e discriminatórias e que os votos humanos coletados estão em boa concordância com os de avaliadores especializados. Essas análises estabelecem coletivamente uma base robusta para a credibilidade do Chatbot Arena. Devido ao seu valor único e à sua abertura, o Chatbot Arena emergiu como um dos quadros de liderança de LLMs mais referenciados, amplamente citado por desenvolvedores e empresas líderes de LLMs. Nossa demonstração está publicamente disponível em https://chat.lmsys.org.
English
Large Language Models (LLMs) have unlocked new capabilities and applications;
however, evaluating the alignment with human preferences still poses
significant challenges. To address this issue, we introduce Chatbot Arena, an
open platform for evaluating LLMs based on human preferences. Our methodology
employs a pairwise comparison approach and leverages input from a diverse user
base through crowdsourcing. The platform has been operational for several
months, amassing over 240K votes. This paper describes the platform, analyzes
the data we have collected so far, and explains the tried-and-true statistical
methods we are using for efficient and accurate evaluation and ranking of
models. We confirm that the crowdsourced questions are sufficiently diverse and
discriminating and that the crowdsourced human votes are in good agreement with
those of expert raters. These analyses collectively establish a robust
foundation for the credibility of Chatbot Arena. Because of its unique value
and openness, Chatbot Arena has emerged as one of the most referenced LLM
leaderboards, widely cited by leading LLM developers and companies. Our demo is
publicly available at https://chat.lmsys.org.