長文脈クエリ指向要約のための非構造化エビデンス帰属
Unstructured Evidence Attribution for Long Context Query Focused Summarization
February 20, 2025
著者: Dustin Wright, Zain Muhammad Mujahid, Lu Wang, Isabelle Augenstein, David Jurgens
cs.AI
要旨
大規模言語モデル(LLMs)は、ユーザークエリに基づいて非常に長い文脈から一貫性のある要約を生成することが可能です。証拠スパンを抽出し適切に引用することは、これらの要約の透明性と信頼性を向上させるのに役立つでしょう。同時に、LLMsはどの情報を理解し注目するかについて位置バイアスに悩まされており、これは証拠引用に影響を与える可能性があります。これまでの研究では、事前に定義された粒度レベル(例:文、段落、ドキュメントなど)での証拠引用に焦点が当てられてきましたが、我々は非構造化証拠引用を伴う長文脈クエリ指向要約タスクを提案します。既存のシステムが文脈から非構造化証拠を生成し適切に引用することに苦労し、証拠が「中間で失われる」傾向があることを示します。これを緩和するため、我々はSummaries with Unstructured Evidence Textデータセット(SUnsET)を作成しました。これは、新しいドメイン非依存のパイプラインを使用して生成された合成データセットであり、LLMsをこのタスクに適応させるための教師データとして使用できます。異なるサイズの5つのLLMsと、様々なドキュメントタイプと長さを持つ4つのデータセットにわたって、SUnsETデータで適応させたLLMsが、ベースモデルよりも関連性が高く事実に一貫した証拠を生成し、文脈内のより多様な位置から証拠を抽出し、より関連性が高く一貫性のある要約を生成できることを実証しました。
English
Large language models (LLMs) are capable of generating coherent summaries
from very long contexts given a user query. Extracting and properly citing
evidence spans could help improve the transparency and reliability of these
summaries. At the same time, LLMs suffer from positional biases in terms of
which information they understand and attend to, which could affect evidence
citation. Whereas previous work has focused on evidence citation with
predefined levels of granularity (e.g. sentence, paragraph, document, etc.), we
propose the task of long-context query focused summarization with unstructured
evidence citation. We show how existing systems struggle to generate and
properly cite unstructured evidence from their context, and that evidence tends
to be "lost-in-the-middle". To help mitigate this, we create the Summaries with
Unstructured Evidence Text dataset (SUnsET), a synthetic dataset generated
using a novel domain-agnostic pipeline which can be used as supervision to
adapt LLMs to this task. We demonstrate across 5 LLMs of different sizes and 4
datasets with varying document types and lengths that LLMs adapted with SUnsET
data generate more relevant and factually consistent evidence than their base
models, extract evidence from more diverse locations in their context, and can
generate more relevant and consistent summaries.