Chatbot Arena: 人間の嗜好によるLLM評価のためのオープンプラットフォーム
Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference
March 7, 2024
著者: Wei-Lin Chiang, Lianmin Zheng, Ying Sheng, Anastasios Nikolas Angelopoulos, Tianle Li, Dacheng Li, Hao Zhang, Banghua Zhu, Michael Jordan, Joseph E. Gonzalez, Ion Stoica
cs.AI
要旨
大規模言語モデル(LLMs)は新たな能力と応用を開拓してきたが、人間の嗜好との整合性を評価することは依然として重要な課題である。この問題に対処するため、我々は人間の嗜好に基づいてLLMsを評価するためのオープンプラットフォーム「Chatbot Arena」を導入した。我々の方法論はペアワイズ比較アプローチを採用し、クラウドソーシングを通じて多様なユーザーベースからの入力を活用している。このプラットフォームは数ヶ月間運用され、24万件以上の投票を集積してきた。本論文では、このプラットフォームを説明し、これまでに収集したデータを分析し、モデルの効率的かつ正確な評価とランキングのために使用している確立された統計的手法を解説する。我々は、クラウドソーシングによる質問が十分に多様で識別力があること、およびクラウドソーシングによる人間の投票が専門家の評価者との間に良好な一致を示すことを確認した。これらの分析は、Chatbot Arenaの信頼性を確立する強固な基盤を提供する。その独自の価値とオープン性により、Chatbot Arenaは主要なLLM開発者や企業によって広く引用される、最も参照されるLLMリーダーボードの一つとなっている。我々のデモはhttps://chat.lmsys.orgで公開されている。
English
Large Language Models (LLMs) have unlocked new capabilities and applications;
however, evaluating the alignment with human preferences still poses
significant challenges. To address this issue, we introduce Chatbot Arena, an
open platform for evaluating LLMs based on human preferences. Our methodology
employs a pairwise comparison approach and leverages input from a diverse user
base through crowdsourcing. The platform has been operational for several
months, amassing over 240K votes. This paper describes the platform, analyzes
the data we have collected so far, and explains the tried-and-true statistical
methods we are using for efficient and accurate evaluation and ranking of
models. We confirm that the crowdsourced questions are sufficiently diverse and
discriminating and that the crowdsourced human votes are in good agreement with
those of expert raters. These analyses collectively establish a robust
foundation for the credibility of Chatbot Arena. Because of its unique value
and openness, Chatbot Arena has emerged as one of the most referenced LLM
leaderboards, widely cited by leading LLM developers and companies. Our demo is
publicly available at https://chat.lmsys.org.