Atribuição de Evidência Não Estruturada para Sumarização Focada em Consultas de Contexto Longo
Unstructured Evidence Attribution for Long Context Query Focused Summarization
February 20, 2025
Autores: Dustin Wright, Zain Muhammad Mujahid, Lu Wang, Isabelle Augenstein, David Jurgens
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) são capazes de gerar resumos coerentes a partir de contextos muito longos, dada uma consulta do usuário. Extrair e citar adequadamente trechos de evidência pode ajudar a melhorar a transparência e a confiabilidade desses resumos. Ao mesmo tempo, os LLMs sofrem com vieses posicionais em termos de quais informações eles compreendem e atendem, o que pode afetar a citação de evidências. Enquanto trabalhos anteriores se concentraram na citação de evidências com níveis predefinidos de granularidade (por exemplo, frase, parágrafo, documento, etc.), propomos a tarefa de resumo focado em consultas de contexto longo com citação de evidências não estruturadas. Mostramos como os sistemas existentes lutam para gerar e citar adequadamente evidências não estruturadas de seu contexto, e que as evidências tendem a se "perder no meio". Para ajudar a mitigar isso, criamos o conjunto de dados Summaries with Unstructured Evidence Text (SUnsET), um conjunto de dados sintético gerado usando um pipeline agnóstico de domínio que pode ser usado como supervisão para adaptar LLMs a essa tarefa. Demonstramos, em 5 LLMs de diferentes tamanhos e 4 conjuntos de dados com tipos e comprimentos variados de documentos, que os LLMs adaptados com dados do SUnsET geram evidências mais relevantes e factualmente consistentes do que seus modelos base, extraem evidências de locais mais diversos em seu contexto e podem gerar resumos mais relevantes e consistentes.
English
Large language models (LLMs) are capable of generating coherent summaries
from very long contexts given a user query. Extracting and properly citing
evidence spans could help improve the transparency and reliability of these
summaries. At the same time, LLMs suffer from positional biases in terms of
which information they understand and attend to, which could affect evidence
citation. Whereas previous work has focused on evidence citation with
predefined levels of granularity (e.g. sentence, paragraph, document, etc.), we
propose the task of long-context query focused summarization with unstructured
evidence citation. We show how existing systems struggle to generate and
properly cite unstructured evidence from their context, and that evidence tends
to be "lost-in-the-middle". To help mitigate this, we create the Summaries with
Unstructured Evidence Text dataset (SUnsET), a synthetic dataset generated
using a novel domain-agnostic pipeline which can be used as supervision to
adapt LLMs to this task. We demonstrate across 5 LLMs of different sizes and 4
datasets with varying document types and lengths that LLMs adapted with SUnsET
data generate more relevant and factually consistent evidence than their base
models, extract evidence from more diverse locations in their context, and can
generate more relevant and consistent summaries.Summary
AI-Generated Summary