ChatPaper.aiChatPaper

長文脈クエリ指向要約のための非構造化エビデンス帰属

Unstructured Evidence Attribution for Long Context Query Focused Summarization

February 20, 2025
著者: Dustin Wright, Zain Muhammad Mujahid, Lu Wang, Isabelle Augenstein, David Jurgens
cs.AI

要旨

大規模言語モデル(LLMs)は、ユーザークエリに基づいて非常に長い文脈から一貫性のある要約を生成することが可能です。証拠スパンを抽出し適切に引用することは、これらの要約の透明性と信頼性を向上させるのに役立つでしょう。同時に、LLMsはどの情報を理解し注目するかについて位置バイアスに悩まされており、これは証拠引用に影響を与える可能性があります。これまでの研究では、事前に定義された粒度レベル(例:文、段落、ドキュメントなど)での証拠引用に焦点が当てられてきましたが、我々は非構造化証拠引用を伴う長文脈クエリ指向要約タスクを提案します。既存のシステムが文脈から非構造化証拠を生成し適切に引用することに苦労し、証拠が「中間で失われる」傾向があることを示します。これを緩和するため、我々はSummaries with Unstructured Evidence Textデータセット(SUnsET)を作成しました。これは、新しいドメイン非依存のパイプラインを使用して生成された合成データセットであり、LLMsをこのタスクに適応させるための教師データとして使用できます。異なるサイズの5つのLLMsと、様々なドキュメントタイプと長さを持つ4つのデータセットにわたって、SUnsETデータで適応させたLLMsが、ベースモデルよりも関連性が高く事実に一貫した証拠を生成し、文脈内のより多様な位置から証拠を抽出し、より関連性が高く一貫性のある要約を生成できることを実証しました。
English
Large language models (LLMs) are capable of generating coherent summaries from very long contexts given a user query. Extracting and properly citing evidence spans could help improve the transparency and reliability of these summaries. At the same time, LLMs suffer from positional biases in terms of which information they understand and attend to, which could affect evidence citation. Whereas previous work has focused on evidence citation with predefined levels of granularity (e.g. sentence, paragraph, document, etc.), we propose the task of long-context query focused summarization with unstructured evidence citation. We show how existing systems struggle to generate and properly cite unstructured evidence from their context, and that evidence tends to be "lost-in-the-middle". To help mitigate this, we create the Summaries with Unstructured Evidence Text dataset (SUnsET), a synthetic dataset generated using a novel domain-agnostic pipeline which can be used as supervision to adapt LLMs to this task. We demonstrate across 5 LLMs of different sizes and 4 datasets with varying document types and lengths that LLMs adapted with SUnsET data generate more relevant and factually consistent evidence than their base models, extract evidence from more diverse locations in their context, and can generate more relevant and consistent summaries.
PDF32February 21, 2025