Unstrukturierte Evidenzzuordnung für fokussierte Zusammenfassungen mit langem Kontext
Unstructured Evidence Attribution for Long Context Query Focused Summarization
February 20, 2025
Autoren: Dustin Wright, Zain Muhammad Mujahid, Lu Wang, Isabelle Augenstein, David Jurgens
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) sind in der Lage, kohärente Zusammenfassungen aus sehr langen Kontexten basierend auf einer Benutzeranfrage zu generieren. Das Extrahieren und korrekte Zitieren von Belegstellen könnte die Transparenz und Zuverlässigkeit dieser Zusammenfassungen verbessern. Gleichzeitig leiden LLMs unter Positionsverzerrungen in Bezug darauf, welche Informationen sie verstehen und beachten, was die Zitierung von Belegen beeinträchtigen könnte. Während sich frühere Arbeiten auf die Zitierung von Belegen mit vordefinierten Granularitätsstufen (z. B. Satz, Absatz, Dokument usw.) konzentriert haben, schlagen wir die Aufgabe der langkontextbezogenen, anfrageorientierten Zusammenfassung mit unstrukturierter Belegzitierung vor. Wir zeigen, dass bestehende Systeme Schwierigkeiten haben, unstrukturierte Belege aus ihrem Kontext zu generieren und korrekt zu zitieren, und dass Belege tendenziell „in der Mitte verloren gehen“. Um dies zu mildern, erstellen wir den Summaries with Unstructured Evidence Text-Datensatz (SUnsET), einen synthetischen Datensatz, der mit einer neuartigen domänenunabhängigen Pipeline generiert wurde und als Supervision zur Anpassung von LLMs an diese Aufgabe verwendet werden kann. Wir demonstrieren anhand von 5 LLMs unterschiedlicher Größe und 4 Datensätzen mit verschiedenen Dokumenttypen und -längen, dass LLMs, die mit SUnsET-Daten angepasst wurden, relevantere und faktenkonsistentere Belege generieren als ihre Basismodelle, Belege aus diverseren Positionen in ihrem Kontext extrahieren und relevantere und konsistentere Zusammenfassungen erstellen können.
English
Large language models (LLMs) are capable of generating coherent summaries
from very long contexts given a user query. Extracting and properly citing
evidence spans could help improve the transparency and reliability of these
summaries. At the same time, LLMs suffer from positional biases in terms of
which information they understand and attend to, which could affect evidence
citation. Whereas previous work has focused on evidence citation with
predefined levels of granularity (e.g. sentence, paragraph, document, etc.), we
propose the task of long-context query focused summarization with unstructured
evidence citation. We show how existing systems struggle to generate and
properly cite unstructured evidence from their context, and that evidence tends
to be "lost-in-the-middle". To help mitigate this, we create the Summaries with
Unstructured Evidence Text dataset (SUnsET), a synthetic dataset generated
using a novel domain-agnostic pipeline which can be used as supervision to
adapt LLMs to this task. We demonstrate across 5 LLMs of different sizes and 4
datasets with varying document types and lengths that LLMs adapted with SUnsET
data generate more relevant and factually consistent evidence than their base
models, extract evidence from more diverse locations in their context, and can
generate more relevant and consistent summaries.Summary
AI-Generated Summary