Kontexte sind niemals lang genug: Strukturiertes Schließen für skalierbare Fragebeantwortung über lange Dokumentensammlungen

Zusammenfassung

Die Beantwortung von Fragen auf der Grundlage realer Dokumente stellt eine große Herausforderung dar. Analysten müssen Beweise aus mehreren Dokumenten und verschiedenen Teilen jedes Dokuments synthetisieren. Jeder feste Kontextfenster eines großen Sprachmodells (LLM) kann jedoch überschritten werden, sobald die Dokumentensammlungen wachsen. Eine gängige Problemumgehung ist die Zerlegung von Dokumenten in Abschnitte und die Zusammenstellung von Antworten aus Abschnitts-basierten Ergebnissen. Dies führt jedoch zu einem Aggregationsengpass: Mit steigender Anzahl an Abschnitten müssen Systeme eine zunehmend große Menge an extrahierten Beweisen immer noch kombinieren und darüber schlussfolgern. Wir stellen SLIDERS vor, ein Framework zur Fragebeantwortung über lange Dokumentensammlungen mittels strukturierter Schlussfolgerung. SLIDERS extrahiert relevante Informationen in eine relationale Datenbank und ermöglicht so skalierbares Schließen auf persistente, strukturierte Zustände via SQL anstelle von aneinandergereihtem Text. Um diese lokal extrahierte Repräsentation global kohärent zu machen, führt SLIDERS eine Phase der Datenabstimmung ein, die Herkunft, Extraktionsbegründungen und Metadaten nutzt, um duplizierte, inkonsistente und unvollständige Datensätze zu erkennen und zu reparieren. SLIDERS übertrifft alle Vergleichsbaselines auf drei bestehenden Benchmarks für langen Kontext, obwohl alle in den Kontextfenster starker Basis-LLMs passen, und übertrifft GPT-4.1 im Durchschnitt um 6,6 Punkte. Es verbessert sich auch um etwa 19 bzw. 32 Punkte gegenüber der nächstbesten Baseline auf zwei neuen Benchmarks mit 3,9 Millionen bzw. 36 Millionen Tokens.

English

Real-world document question answering is challenging. Analysts must synthesize evidence across multiple documents and different parts of each document. However, any fixed LLM context window can be exceeded as document collections grow. A common workaround is to decompose documents into chunks and assemble answers from chunk-level outputs, but this introduces an aggregation bottleneck: as the number of chunks grows, systems must still combine and reason over an increasingly large body of extracted evidence. We present SLIDERS, a framework for question answering over long document collections through structured reasoning. SLIDERS extracts salient information into a relational database, enabling scalable reasoning over persistent structured state via SQL rather than concatenated text. To make this locally extracted representation globally coherent, SLIDERS introduces a data reconciliation stage that leverages provenance, extraction rationales, and metadata to detect and repair duplicated, inconsistent, and incomplete records. SLIDERS outperforms all baselines on three existing long-context benchmarks, despite all of them fitting within the context window of strong base LLMs, exceeding GPT-4.1 by 6.6 points on average. It also improves over the next best baseline by ~19 and ~32 points on two new benchmarks at 3.9M and 36M tokens, respectively.

Kontexte sind niemals lang genug: Strukturiertes Schließen für skalierbare Fragebeantwortung über lange Dokumentensammlungen

Contexts are Never Long Enough: Structured Reasoning for Scalable Question Answering over Long Document Sets

Zusammenfassung

Support