ChatPaper.aiChatPaper

Attribution des preuves non structurées pour la synthèse ciblée sur des requêtes dans des contextes longs

Unstructured Evidence Attribution for Long Context Query Focused Summarization

February 20, 2025
Auteurs: Dustin Wright, Zain Muhammad Mujahid, Lu Wang, Isabelle Augenstein, David Jurgens
cs.AI

Résumé

Les grands modèles de langage (LLMs) sont capables de générer des résumés cohérents à partir de contextes très longs en réponse à une requête utilisateur. L'extraction et la citation appropriée de segments de preuve pourraient contribuer à améliorer la transparence et la fiabilité de ces résumés. Parallèlement, les LLMs souffrent de biais positionnels en termes de compréhension et d'attention portée à certaines informations, ce qui pourrait affecter la citation des preuves. Alors que les travaux précédents se sont concentrés sur la citation de preuves avec des niveaux de granularité prédéfinis (par exemple, phrase, paragraphe, document, etc.), nous proposons la tâche de résumé centré sur une requête dans un contexte long avec citation de preuves non structurées. Nous montrons comment les systèmes existants peinent à générer et à citer correctement des preuves non structurées à partir de leur contexte, et que les preuves ont tendance à être "perdues au milieu". Pour aider à atténuer ce problème, nous créons le jeu de données Summaries with Unstructured Evidence Text (SUnsET), un ensemble de données synthétiques généré à l'aide d'un pipeline novateur indépendant du domaine, qui peut être utilisé comme supervision pour adapter les LLMs à cette tâche. Nous démontrons, à travers 5 LLMs de tailles différentes et 4 jeux de données avec des types et des longueurs de documents variés, que les LLMs adaptés avec les données de SUnsET génèrent des preuves plus pertinentes et factuellement cohérentes que leurs modèles de base, extraient des preuves à partir d'emplacements plus diversifiés dans leur contexte, et peuvent produire des résumés plus pertinents et cohérents.
English
Large language models (LLMs) are capable of generating coherent summaries from very long contexts given a user query. Extracting and properly citing evidence spans could help improve the transparency and reliability of these summaries. At the same time, LLMs suffer from positional biases in terms of which information they understand and attend to, which could affect evidence citation. Whereas previous work has focused on evidence citation with predefined levels of granularity (e.g. sentence, paragraph, document, etc.), we propose the task of long-context query focused summarization with unstructured evidence citation. We show how existing systems struggle to generate and properly cite unstructured evidence from their context, and that evidence tends to be "lost-in-the-middle". To help mitigate this, we create the Summaries with Unstructured Evidence Text dataset (SUnsET), a synthetic dataset generated using a novel domain-agnostic pipeline which can be used as supervision to adapt LLMs to this task. We demonstrate across 5 LLMs of different sizes and 4 datasets with varying document types and lengths that LLMs adapted with SUnsET data generate more relevant and factually consistent evidence than their base models, extract evidence from more diverse locations in their context, and can generate more relevant and consistent summaries.

Summary

AI-Generated Summary

PDF32February 21, 2025