干し草の山の要約:長文脈LLMとRAGシステムへの挑戦Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems
LLM(大規模言語モデル)とRAG(検索拡張生成)システムは、現在数百万以上の入力トークンを処理できる能力を持っています。しかし、長文脈タスクにおけるこれらのシステムの出力品質を評価することは依然として困難であり、「干し草の山の中の針探し」のようなタスクは複雑性に欠けています。本研究では、要約がそのような評価において中心的な役割を果たすことができると主張します。私たちは、特定の洞察が文書間で繰り返されるように文書の「干し草の山」を合成する手順を設計しました。「干し草の山の要約」(SummHay)タスクでは、システムが干し草の山を処理し、クエリに基づいて関連する洞察を特定し、正確にソース文書を引用した要約を生成する必要があります。干し草の山の要約にどの洞察が現れるべきか、どの文書が引用されるべきかを正確に知っているため、カバレッジと引用の2つの側面で要約を評価する再現性の高い自動評価を実装しました。私たちは、会話とニュースの2つのドメインで干し草の山を生成し、10のLLMと対応する50のRAGシステムを大規模に評価しました。私たちの調査結果は、SummHayが現在のシステムにとって未解決の課題であることを示しています。文書の関連性に関するオラクル信号が提供されたシステムでさえ、人間の性能の推定値(56%)をJoint Scoreで10ポイント以上下回っています。検索器なしでは、GPT-4oやClaude 3 Opusのような長文脈LLMはSummHayで20%未満のスコアしか得られません。私たちは、SummHayが企業のRAGシステムや長文脈モデルのポジションバイアスを研究するためにも使用できることを示します。将来のシステムがSummHayで人間の性能に匹敵し、それを超えることを期待しています。