Atribución de Evidencia No Estructurada para la Generación de Resúmenes Enfocados en Consultas de Contexto Largo
Unstructured Evidence Attribution for Long Context Query Focused Summarization
February 20, 2025
Autores: Dustin Wright, Zain Muhammad Mujahid, Lu Wang, Isabelle Augenstein, David Jurgens
cs.AI
Resumen
Los modelos de lenguaje a gran escala (LLMs) son capaces de generar resúmenes coherentes a partir de contextos muy largos dada una consulta del usuario. Extraer y citar adecuadamente los fragmentos de evidencia podría ayudar a mejorar la transparencia y fiabilidad de estos resúmenes. Al mismo tiempo, los LLMs presentan sesgos posicionales en cuanto a qué información comprenden y a qué atienden, lo que podría afectar la citación de evidencia. Mientras que trabajos previos se han centrado en la citación de evidencia con niveles de granularidad predefinidos (por ejemplo, oración, párrafo, documento, etc.), proponemos la tarea de resumen enfocado en consultas de contexto largo con citación de evidencia no estructurada. Mostramos cómo los sistemas existentes tienen dificultades para generar y citar adecuadamente evidencia no estructurada de su contexto, y que la evidencia tiende a "perderse en el medio". Para ayudar a mitigar esto, creamos el conjunto de datos Summaries with Unstructured Evidence Text (SUnsET), un conjunto de datos sintético generado mediante una novedosa canalización independiente del dominio que puede usarse como supervisión para adaptar los LLMs a esta tarea. Demostramos, a través de 5 LLMs de diferentes tamaños y 4 conjuntos de datos con tipos y longitudes de documentos variados, que los LLMs adaptados con datos de SUnsET generan evidencia más relevante y factualmente consistente que sus modelos base, extraen evidencia de ubicaciones más diversas en su contexto y pueden generar resúmenes más relevantes y consistentes.
English
Large language models (LLMs) are capable of generating coherent summaries
from very long contexts given a user query. Extracting and properly citing
evidence spans could help improve the transparency and reliability of these
summaries. At the same time, LLMs suffer from positional biases in terms of
which information they understand and attend to, which could affect evidence
citation. Whereas previous work has focused on evidence citation with
predefined levels of granularity (e.g. sentence, paragraph, document, etc.), we
propose the task of long-context query focused summarization with unstructured
evidence citation. We show how existing systems struggle to generate and
properly cite unstructured evidence from their context, and that evidence tends
to be "lost-in-the-middle". To help mitigate this, we create the Summaries with
Unstructured Evidence Text dataset (SUnsET), a synthetic dataset generated
using a novel domain-agnostic pipeline which can be used as supervision to
adapt LLMs to this task. We demonstrate across 5 LLMs of different sizes and 4
datasets with varying document types and lengths that LLMs adapted with SUnsET
data generate more relevant and factually consistent evidence than their base
models, extract evidence from more diverse locations in their context, and can
generate more relevant and consistent summaries.Summary
AI-Generated Summary