ChatPaper.aiChatPaper

Attribuzione di Prove Non Strutturate per la Sintesi Focalizzata su Query in Contesti Lunghi

Unstructured Evidence Attribution for Long Context Query Focused Summarization

February 20, 2025
Autori: Dustin Wright, Zain Muhammad Mujahid, Lu Wang, Isabelle Augenstein, David Jurgens
cs.AI

Abstract

I modelli linguistici di grandi dimensioni (LLM) sono in grado di generare riassunti coerenti da contesti molto lunghi in risposta a una query dell'utente. L'estrazione e la corretta citazione di porzioni di evidenza potrebbero contribuire a migliorare la trasparenza e l'affidabilità di questi riassunti. Allo stesso tempo, gli LLM presentano bias posizionali riguardo a quali informazioni comprendono e a cui prestano attenzione, il che potrebbe influenzare la citazione delle evidenze. Mentre i lavori precedenti si sono concentrati sulla citazione delle evidenze con livelli di granularità predefiniti (ad esempio frase, paragrafo, documento, ecc.), noi proponiamo il compito di riassunto focalizzato su query in contesti lunghi con citazione di evidenze non strutturate. Mostriamo come i sistemi esistenti abbiano difficoltà a generare e citare correttamente evidenze non strutturate dal loro contesto, e che le evidenze tendono a essere "perdute nel mezzo". Per contribuire a mitigare questo problema, creiamo il dataset Summaries with Unstructured Evidence Text (SUnsET), un dataset sintetico generato utilizzando una pipeline agnostica rispetto al dominio che può essere utilizzata come supervisione per adattare gli LLM a questo compito. Dimostriamo, su 5 LLM di dimensioni diverse e 4 dataset con tipi e lunghezze di documenti variabili, che gli LLM adattati con i dati di SUnsET generano evidenze più rilevanti e fattualmente consistenti rispetto ai loro modelli base, estraggono evidenze da posizioni più diversificate nel loro contesto e sono in grado di generare riassunti più rilevanti e coerenti.
English
Large language models (LLMs) are capable of generating coherent summaries from very long contexts given a user query. Extracting and properly citing evidence spans could help improve the transparency and reliability of these summaries. At the same time, LLMs suffer from positional biases in terms of which information they understand and attend to, which could affect evidence citation. Whereas previous work has focused on evidence citation with predefined levels of granularity (e.g. sentence, paragraph, document, etc.), we propose the task of long-context query focused summarization with unstructured evidence citation. We show how existing systems struggle to generate and properly cite unstructured evidence from their context, and that evidence tends to be "lost-in-the-middle". To help mitigate this, we create the Summaries with Unstructured Evidence Text dataset (SUnsET), a synthetic dataset generated using a novel domain-agnostic pipeline which can be used as supervision to adapt LLMs to this task. We demonstrate across 5 LLMs of different sizes and 4 datasets with varying document types and lengths that LLMs adapted with SUnsET data generate more relevant and factually consistent evidence than their base models, extract evidence from more diverse locations in their context, and can generate more relevant and consistent summaries.

Summary

AI-Generated Summary

PDF32February 21, 2025