言語モデル評議会:合意形成による高度に主観的なタスクにおける基盤モデルのベンチマーキング
Language Model Council: Benchmarking Foundation Models on Highly Subjective Tasks by Consensus
June 12, 2024
著者: Justin Zhao, Flor Miriam Plaza-del-Arco, Amanda Cercas Curry
cs.AI
要旨
大規模言語モデル(LLMs)の急速な進歩に伴い、堅牢で挑戦的なベンチマークが求められています。Chatbot Arenaのようなリーダーボードは、LLMsの応答が人間の好みにどれだけ一致するかに基づいてランク付けを行います。しかし、感情的知性、創造的ライティング、説得力などのタスクは非常に主観的であり、多くの場合、大多数の人間の合意を欠いています。審査員は、どの応答が優れているかについて和解不可能な意見の相違を持つ可能性があります。高度に主観的なタスクにおいてLLMsをランク付けするという課題に対処するため、我々は新しいベンチマークフレームワークである「言語モデル評議会(Language Model Council, LMC)」を提案します。LMCは民主的なプロセスを通じて運営され、1)平等な参加を通じてテストセットを策定し、2)評議会メンバー間でテストを実施し、3)集団の陪審として応答を評価します。我々は、20の最新LLMsで構成される評議会を、対人ジレンマに対する応答というオープンエンドの感情的知性タスクに展開しました。結果は、LMCが個々のLLM審査員よりも分離可能で堅牢、偏りが少ないランキングを生成し、他のベンチマークと比較して人間が確立したリーダーボードとの一貫性が高いことを示しています。
English
The rapid advancement of Large Language Models (LLMs) necessitates robust and
challenging benchmarks. Leaderboards like Chatbot Arena rank LLMs based on how
well their responses align with human preferences. However, many tasks such as
those related to emotional intelligence, creative writing, or persuasiveness,
are highly subjective and often lack majoritarian human agreement. Judges may
have irreconcilable disagreements about what constitutes a better response. To
address the challenge of ranking LLMs on highly subjective tasks, we propose a
novel benchmarking framework, the Language Model Council (LMC). The LMC
operates through a democratic process to: 1) formulate a test set through equal
participation, 2) administer the test among council members, and 3) evaluate
responses as a collective jury. We deploy a council of 20 newest LLMs on an
open-ended emotional intelligence task: responding to interpersonal dilemmas.
Our results show that the LMC produces rankings that are more separable,
robust, and less biased than those from any individual LLM judge, and is more
consistent with a human-established leaderboard compared to other benchmarks.Summary
AI-Generated Summary