Unstrukturierte Evidenzzuordnung für fokussierte Zusammenfassungen mit langem Kontext

papers.abstract

Große Sprachmodelle (LLMs) sind in der Lage, kohärente Zusammenfassungen aus sehr langen Kontexten basierend auf einer Benutzeranfrage zu generieren. Das Extrahieren und korrekte Zitieren von Belegstellen könnte die Transparenz und Zuverlässigkeit dieser Zusammenfassungen verbessern. Gleichzeitig leiden LLMs unter Positionsverzerrungen in Bezug darauf, welche Informationen sie verstehen und beachten, was die Zitierung von Belegen beeinträchtigen könnte. Während sich frühere Arbeiten auf die Zitierung von Belegen mit vordefinierten Granularitätsstufen (z. B. Satz, Absatz, Dokument usw.) konzentriert haben, schlagen wir die Aufgabe der langkontextbezogenen, anfrageorientierten Zusammenfassung mit unstrukturierter Belegzitierung vor. Wir zeigen, dass bestehende Systeme Schwierigkeiten haben, unstrukturierte Belege aus ihrem Kontext zu generieren und korrekt zu zitieren, und dass Belege tendenziell „in der Mitte verloren gehen“. Um dies zu mildern, erstellen wir den Summaries with Unstructured Evidence Text-Datensatz (SUnsET), einen synthetischen Datensatz, der mit einer neuartigen domänenunabhängigen Pipeline generiert wurde und als Supervision zur Anpassung von LLMs an diese Aufgabe verwendet werden kann. Wir demonstrieren anhand von 5 LLMs unterschiedlicher Größe und 4 Datensätzen mit verschiedenen Dokumenttypen und -längen, dass LLMs, die mit SUnsET-Daten angepasst wurden, relevantere und faktenkonsistentere Belege generieren als ihre Basismodelle, Belege aus diverseren Positionen in ihrem Kontext extrahieren und relevantere und konsistentere Zusammenfassungen erstellen können.

English

Large language models (LLMs) are capable of generating coherent summaries from very long contexts given a user query. Extracting and properly citing evidence spans could help improve the transparency and reliability of these summaries. At the same time, LLMs suffer from positional biases in terms of which information they understand and attend to, which could affect evidence citation. Whereas previous work has focused on evidence citation with predefined levels of granularity (e.g. sentence, paragraph, document, etc.), we propose the task of long-context query focused summarization with unstructured evidence citation. We show how existing systems struggle to generate and properly cite unstructured evidence from their context, and that evidence tends to be "lost-in-the-middle". To help mitigate this, we create the Summaries with Unstructured Evidence Text dataset (SUnsET), a synthetic dataset generated using a novel domain-agnostic pipeline which can be used as supervision to adapt LLMs to this task. We demonstrate across 5 LLMs of different sizes and 4 datasets with varying document types and lengths that LLMs adapted with SUnsET data generate more relevant and factually consistent evidence than their base models, extract evidence from more diverse locations in their context, and can generate more relevant and consistent summaries.

Unstrukturierte Evidenzzuordnung für fokussierte Zusammenfassungen mit langem Kontext

Unstructured Evidence Attribution for Long Context Query Focused Summarization

papers.abstract

Support