チャットボットの信頼性のある人間による評価の課題
Challenges in Trustworthy Human Evaluation of Chatbots
December 5, 2024
著者: Wenting Zhao, Alexander M. Rush, Tanya Goyal
cs.AI
要旨
Chatbot Arenaなどのオープンなコミュニティ主導のプラットフォームは、サイト訪問者からのユーザーの選好データを収集し、LLMのパフォーマンスの信頼性を評価するための最も信頼性の高い一般公開ベンチマークの1つとして評価されています。現在は標準となっていますが、効果的なガードレールを実装して高品質な注釈を人間から収集することは難しいです。本論文では、悪意のあるものおよびそうでないものを含む3つの種類の悪質な注釈が、オープンなリーダーボードのランキングの信頼性を損なう可能性があることを示します。特に、無関心な(正しい投票を行うために適切なインセンティブを受けていないサイト訪問者)または敵対的な(対象モデルのランキングを操作しようとする悪意のある行為者)注釈者による質の低い投票のわずか10%が、モデルのランキングをリーダーボード上で最大5つまで変更する可能性があることを示します。最後に、高品質な人間の注釈を確保するためのオープンな課題について議論します。
English
Open community-driven platforms like Chatbot Arena that collect user
preference data from site visitors have gained a reputation as one of the most
trustworthy publicly available benchmarks for LLM performance. While now
standard, it is tricky to implement effective guardrails to collect
high-quality annotations from humans. In this paper, we demonstrate that three
sources of bad annotations, both malicious and otherwise, can corrupt the
reliability of open leaderboard rankings. In particular, we show that only 10\%
of poor quality votes by apathetic (site visitors not appropriately
incentivized to give correct votes) or adversarial (bad actors seeking to
inflate the ranking of a target model) annotators can change the rankings of
models by up to 5 places on the leaderboard. Finally, we discuss open
challenges in ensuring high-quality human annotations.Summary
AI-Generated Summary