Арена Чатботов: Открытая Платформа для Оценки LLM по Предпочтениям Человека
Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference
March 7, 2024
Авторы: Wei-Lin Chiang, Lianmin Zheng, Ying Sheng, Anastasios Nikolas Angelopoulos, Tianle Li, Dacheng Li, Hao Zhang, Banghua Zhu, Michael Jordan, Joseph E. Gonzalez, Ion Stoica
cs.AI
Аннотация
Большие языковые модели (LLM) открыли новые возможности и приложения; однако оценка соответствия человеческим предпочтениям по-прежнему представляет существенные трудности. Для решения этой проблемы мы представляем Chatbot Arena - открытую платформу для оценки LLM на основе человеческих предпочтений. Наш методология использует подход попарного сравнения и опирается на входные данные от разнообразной пользовательской аудитории через краудсорсинг. Платформа функционирует уже несколько месяцев и собрала более 240 тыс. голосов. В данной статье описывается платформа, анализируются данные, которые мы собрали до сих пор, и объясняются проверенные статистические методы, которые мы используем для эффективной и точной оценки и ранжирования моделей. Мы подтверждаем, что вопросы, собранные через краудсорсинг, достаточно разнообразны и различающиеся, и что голоса пользователей, собранные через краудсорсинг, хорошо согласуются с оценками экспертов. Эти анализы в совокупности устанавливают прочную основу для доверия к Chatbot Arena. Благодаря своей уникальной ценности и открытости Chatbot Arena стала одной из самых цитируемых таблиц лидеров LLM, широко упоминаемых ведущими разработчиками и компаниями LLM. Наш демонстрационный вариант доступен по адресу https://chat.lmsys.org.
English
Large Language Models (LLMs) have unlocked new capabilities and applications;
however, evaluating the alignment with human preferences still poses
significant challenges. To address this issue, we introduce Chatbot Arena, an
open platform for evaluating LLMs based on human preferences. Our methodology
employs a pairwise comparison approach and leverages input from a diverse user
base through crowdsourcing. The platform has been operational for several
months, amassing over 240K votes. This paper describes the platform, analyzes
the data we have collected so far, and explains the tried-and-true statistical
methods we are using for efficient and accurate evaluation and ranking of
models. We confirm that the crowdsourced questions are sufficiently diverse and
discriminating and that the crowdsourced human votes are in good agreement with
those of expert raters. These analyses collectively establish a robust
foundation for the credibility of Chatbot Arena. Because of its unique value
and openness, Chatbot Arena has emerged as one of the most referenced LLM
leaderboards, widely cited by leading LLM developers and companies. Our demo is
publicly available at https://chat.lmsys.org.