干し草の山の要約:長文脈LLMとRAGシステムへの挑戦
Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems
July 1, 2024
著者: Philippe Laban, Alexander R. Fabbri, Caiming Xiong, Chien-Sheng Wu
cs.AI
要旨
LLM(大規模言語モデル)とRAG(検索拡張生成)システムは、現在数百万以上の入力トークンを処理できる能力を持っています。しかし、長文脈タスクにおけるこれらのシステムの出力品質を評価することは依然として困難であり、「干し草の山の中の針探し」のようなタスクは複雑性に欠けています。本研究では、要約がそのような評価において中心的な役割を果たすことができると主張します。私たちは、特定の洞察が文書間で繰り返されるように文書の「干し草の山」を合成する手順を設計しました。「干し草の山の要約」(SummHay)タスクでは、システムが干し草の山を処理し、クエリに基づいて関連する洞察を特定し、正確にソース文書を引用した要約を生成する必要があります。干し草の山の要約にどの洞察が現れるべきか、どの文書が引用されるべきかを正確に知っているため、カバレッジと引用の2つの側面で要約を評価する再現性の高い自動評価を実装しました。私たちは、会話とニュースの2つのドメインで干し草の山を生成し、10のLLMと対応する50のRAGシステムを大規模に評価しました。私たちの調査結果は、SummHayが現在のシステムにとって未解決の課題であることを示しています。文書の関連性に関するオラクル信号が提供されたシステムでさえ、人間の性能の推定値(56%)をJoint Scoreで10ポイント以上下回っています。検索器なしでは、GPT-4oやClaude 3 Opusのような長文脈LLMはSummHayで20%未満のスコアしか得られません。私たちは、SummHayが企業のRAGシステムや長文脈モデルのポジションバイアスを研究するためにも使用できることを示します。将来のシステムがSummHayで人間の性能に匹敵し、それを超えることを期待しています。
English
LLMs and RAG systems are now capable of handling millions of input tokens or
more. However, evaluating the output quality of such systems on long-context
tasks remains challenging, as tasks like Needle-in-a-Haystack lack complexity.
In this work, we argue that summarization can play a central role in such
evaluation. We design a procedure to synthesize Haystacks of documents,
ensuring that specific insights repeat across documents. The "Summary
of a Haystack" (SummHay) task then requires a system to process the Haystack
and generate, given a query, a summary that identifies the relevant insights
and precisely cites the source documents. Since we have precise knowledge of
what insights should appear in a haystack summary and what documents should be
cited, we implement a highly reproducible automatic evaluation that can score
summaries on two aspects - Coverage and Citation. We generate Haystacks in two
domains (conversation, news), and perform a large-scale evaluation of 10 LLMs
and corresponding 50 RAG systems. Our findings indicate that SummHay is an open
challenge for current systems, as even systems provided with an Oracle signal
of document relevance lag our estimate of human performance (56\%) by 10+
points on a Joint Score. Without a retriever, long-context LLMs like GPT-4o and
Claude 3 Opus score below 20% on SummHay. We show SummHay can also be used to
study enterprise RAG systems and position bias in long-context models. We hope
future systems can equal and surpass human performance on SummHay.Summary
AI-Generated Summary