最弱リンクの法則:大規模言語モデルのクロス能力Law of the Weakest Link: Cross Capabilities of Large Language Models
大規模言語モデル(LLM)の開発と評価は、主に個々の能力に焦点を当ててきました。しかし、これにはしばしば現実世界のタスクに必要とされる異なる種類の専門知識を横断する複数の能力の交差点が見落とされています。これを「クロス能力」と呼んでいます。この概念を体系的に探るために、まず7つの中核的な個々の能力を定義し、それらを組み合わせて7つの一般的なクロス能力を形成しました。各クロス能力は、手作業で作成された分類法に基づいています。これらの定義に基づいて、1,400の人間による注釈付きプロンプトからなるベンチマークであるCrossEvalを紹介しています。各個々の能力とクロス能力につき100のプロンプトが含まれています。信頼性のある評価を確保するために、専門家の注釈付け者によって4,200のモデル応答が評価され、8,400の人間による評価が収集され、詳細な説明が付され、参照例として機能しています。私たちの調査結果によると、静的評価と特定の能力の向上を試みる際、現在のLLMは一貫して「最も弱いリンクの法則」を示しており、クロス能力のパフォーマンスが著しく最も弱い部分に制約されていることが明らかになりました。具体的には、17のモデルからの58のクロス能力スコアにおいて、38のスコアがすべての個々の能力よりも低く、20のスコアが強い能力と弱い能力の間に位置していますが、より弱い能力に近い位置にあります。これらの結果は、LLMのクロス能力タスクでの低性能を強調し、将来の研究において最適なパフォーマンスを実現するために、最も弱い能力の特定と改善が重要な優先事項であることを示しています。