Атрибуция неструктурированных данных для контекстно-зависимого суммаризации с длинным контекстом
Unstructured Evidence Attribution for Long Context Query Focused Summarization
February 20, 2025
Авторы: Dustin Wright, Zain Muhammad Mujahid, Lu Wang, Isabelle Augenstein, David Jurgens
cs.AI
Аннотация
Крупные языковые модели (LLMs) способны генерировать связные резюме на основе очень длинных контекстов в ответ на пользовательский запрос. Извлечение и корректное цитирование фрагментов доказательств может повысить прозрачность и надежность таких резюме. В то же время LLMs страдают от позиционных предубеждений в отношении того, какую информацию они понимают и на что обращают внимание, что может повлиять на цитирование доказательств. В то время как предыдущие работы были сосредоточены на цитировании доказательств с предопределенными уровнями детализации (например, предложение, абзац, документ и т.д.), мы предлагаем задачу резюмирования с фокусом на длинный контекст и неструктурированное цитирование доказательств. Мы показываем, что существующие системы испытывают трудности с генерацией и корректным цитированием неструктурированных доказательств из своего контекста, и что доказательства часто "теряются в середине". Чтобы помочь в решении этой проблемы, мы создаем набор данных Summaries with Unstructured Evidence Text (SUnsET), синтетический набор данных, сгенерированный с использованием нового доменно-независимого конвейера, который может быть использован в качестве обучающего материала для адаптации LLMs к этой задаче. Мы демонстрируем на 5 LLMs разного размера и 4 наборах данных с различными типами и длинами документов, что LLMs, адаптированные с использованием данных SUnsET, генерируют более релевантные и фактически согласованные доказательства, чем их базовые модели, извлекают доказательства из более разнообразных мест в контексте и способны генерировать более релевантные и согласованные резюме.
English
Large language models (LLMs) are capable of generating coherent summaries
from very long contexts given a user query. Extracting and properly citing
evidence spans could help improve the transparency and reliability of these
summaries. At the same time, LLMs suffer from positional biases in terms of
which information they understand and attend to, which could affect evidence
citation. Whereas previous work has focused on evidence citation with
predefined levels of granularity (e.g. sentence, paragraph, document, etc.), we
propose the task of long-context query focused summarization with unstructured
evidence citation. We show how existing systems struggle to generate and
properly cite unstructured evidence from their context, and that evidence tends
to be "lost-in-the-middle". To help mitigate this, we create the Summaries with
Unstructured Evidence Text dataset (SUnsET), a synthetic dataset generated
using a novel domain-agnostic pipeline which can be used as supervision to
adapt LLMs to this task. We demonstrate across 5 LLMs of different sizes and 4
datasets with varying document types and lengths that LLMs adapted with SUnsET
data generate more relevant and factually consistent evidence than their base
models, extract evidence from more diverse locations in their context, and can
generate more relevant and consistent summaries.Summary
AI-Generated Summary