リーダーボードの錯覚
The Leaderboard Illusion
April 29, 2025
著者: Shivalika Singh, Yiyang Nan, Alex Wang, Daniel D'Souza, Sayash Kapoor, Ahmet Üstün, Sanmi Koyejo, Yuntian Deng, Shayne Longpre, Noah Smith, Beyza Ermis, Marzieh Fadaee, Sara Hooker
cs.AI
要旨
進歩の測定は、あらゆる科学分野の発展において基本的な要素である。ベンチマークが中心的な役割を果たすにつれ、それらは歪みを受けやすくなっている。Chatbot Arenaは、最も優れたAIシステムをランク付けするための主要なリーダーボードとして登場した。しかし、本研究では、歪んだ競技場を生み出す系統的な問題を特定した。非公開のプライベートテスト慣行が、公開前に複数のバリアントをテストし、必要に応じてスコアを取り下げることができる一部のプロバイダーに有利に働いていることがわかった。これらのプロバイダーが最良のスコアを選択できる能力が、パフォーマンス結果の選択的な開示により、Arenaのスコアに偏りをもたらしていることを明らかにした。極端な例として、MetaがLlama-4のリリース前にテストした27のプライベートLLMバリアントを特定した。また、プロプライエタリなクローズドモデルは、オープンウェイトやオープンソースの代替モデルよりも高い頻度(バトル数)でサンプリングされ、Arenaから削除されるモデルが少ないことも明らかにした。これらのポリシーは、時間の経過とともに大きなデータアクセスの非対称性を生み出す。GoogleやOpenAIのようなプロバイダーは、それぞれArenaの全データの推定19.2%と20.4%を受け取っている。対照的に、83のオープンウェイトモデルを合わせても、総データの推定29.7%しか受け取っていない。Chatbot Arenaのデータへのアクセスは大きな利益をもたらすことを示す。限られた追加データでも、Arenaの分布において最大112%の相対的なパフォーマンス向上をもたらす可能性があることを、保守的な推定に基づいて示した。これらのダイナミクスが相まって、一般的なモデル品質ではなく、Arena固有のダイナミクスへの過剰適合が生じている。Arenaは、この貴重な評価プラットフォームを維持するオーガナイザーとオープンコミュニティの多大な努力に基づいて構築されている。我々は、Chatbot Arenaの評価フレームワークを改革し、分野におけるより公平で透明性の高いベンチマークを促進するための実行可能な提言を提供する。
English
Measuring progress is fundamental to the advancement of any scientific field.
As benchmarks play an increasingly central role, they also grow more
susceptible to distortion. Chatbot Arena has emerged as the go-to leaderboard
for ranking the most capable AI systems. Yet, in this work we identify
systematic issues that have resulted in a distorted playing field. We find that
undisclosed private testing practices benefit a handful of providers who are
able to test multiple variants before public release and retract scores if
desired. We establish that the ability of these providers to choose the best
score leads to biased Arena scores due to selective disclosure of performance
results. At an extreme, we identify 27 private LLM variants tested by Meta in
the lead-up to the Llama-4 release. We also establish that proprietary closed
models are sampled at higher rates (number of battles) and have fewer models
removed from the arena than open-weight and open-source alternatives. Both
these policies lead to large data access asymmetries over time. Providers like
Google and OpenAI have received an estimated 19.2% and 20.4% of all data on the
arena, respectively. In contrast, a combined 83 open-weight models have only
received an estimated 29.7% of the total data. We show that access to Chatbot
Arena data yields substantial benefits; even limited additional data can result
in relative performance gains of up to 112% on the arena distribution, based on
our conservative estimates. Together, these dynamics result in overfitting to
Arena-specific dynamics rather than general model quality. The Arena builds on
the substantial efforts of both the organizers and an open community that
maintains this valuable evaluation platform. We offer actionable
recommendations to reform the Chatbot Arena's evaluation framework and promote
fairer, more transparent benchmarking for the fieldSummary
AI-Generated Summary