Contexten zijn Nooit Lang Genoeg: Gestructureerd Redeneren voor Schaalbare Vraagbeantwoording over Lange Documentensets

Samenvatting

Vraag-antwoordtaken met echte documenten vormen een uitdaging. Analisten moeten bewijs uit meerdere documenten en verschillende delen van elk document synthetiseren. Echter, elk vast contextvenster van een grote taalmodel kan worden overschreden naarmate documentverzamelingen groeien. Een gebruikelijke oplossing is om documenten op te delen in brokken en antwoorden samen te stellen uit broeksgewijze outputs, maar dit introduceert een aggregatieknelpunt: naarmate het aantal brokken toeneemt, moeten systemen een steeds grotere hoeveelheid geëxtraheerd bewijs nog steeds combineren en interpreteren. Wij presenteren SLIDERS, een raamwerk voor vraag-antwoordtaken over lange documentverzamelingen door middel van gestructureerd redeneren. SLIDERS extraheert salientie informatie naar een relationele database, waardoor schaalbaar redeneren over persistente gestructureerde staat mogelijk wordt via SQL in plaats van aaneengeschakelde tekst. Om deze lokaal geëxtraheerde representatie globaal coherent te maken, introduceert SLIDERS een gegevensafstemmingsfase die herkomst, extractierationales en metadata benut om gedupliceerde, inconsistente en onvolledige records te detecteren en te herstellen. SLIDERS presteert beter dan alle baseline-methoden op drie bestaande benchmarks voor lange context, ondanks dat ze allemaal binnen het contextvenster van sterke basis-LLM's passen, en overtreft GPT-4.1 gemiddeld met 6,6 punten. Het verbetert ook ten opzichte van de op een na beste baseline met ongeveer 19 en 32 punten op twee nieuwe benchmarks van respectievelijk 3,9 miljoen en 36 miljoen tokens.

English

Real-world document question answering is challenging. Analysts must synthesize evidence across multiple documents and different parts of each document. However, any fixed LLM context window can be exceeded as document collections grow. A common workaround is to decompose documents into chunks and assemble answers from chunk-level outputs, but this introduces an aggregation bottleneck: as the number of chunks grows, systems must still combine and reason over an increasingly large body of extracted evidence. We present SLIDERS, a framework for question answering over long document collections through structured reasoning. SLIDERS extracts salient information into a relational database, enabling scalable reasoning over persistent structured state via SQL rather than concatenated text. To make this locally extracted representation globally coherent, SLIDERS introduces a data reconciliation stage that leverages provenance, extraction rationales, and metadata to detect and repair duplicated, inconsistent, and incomplete records. SLIDERS outperforms all baselines on three existing long-context benchmarks, despite all of them fitting within the context window of strong base LLMs, exceeding GPT-4.1 by 6.6 points on average. It also improves over the next best baseline by ~19 and ~32 points on two new benchmarks at 3.9M and 36M tokens, respectively.

Contexten zijn Nooit Lang Genoeg: Gestructureerd Redeneren voor Schaalbare Vraagbeantwoording over Lange Documentensets

Contexts are Never Long Enough: Structured Reasoning for Scalable Question Answering over Long Document Sets

Samenvatting

Support