Les contextes ne sont jamais assez longs : raisonnement structuré pour un traitement évolutif des questions sur de grands ensembles de documents

Résumé

La réponse aux questions sur des documents du monde réel est un défi complexe. Les analystes doivent synthétiser des preuves provenant de multiples documents et de différentes sections de chaque document. Cependant, toute fenêtre de contexte fixe d'un LLM peut être dépassée à mesure que les collections de documents s'agrandissent. Une solution courante consiste à décomposer les documents en segments et à assembler les réponses à partir des sorties au niveau des segments, mais cela introduit un goulot d'étranglement lors de l'agrégation : à mesure que le nombre de segments augmente, les systèmes doivent toujours combiner et raisonner sur un corpus de preuves extraites de plus en plus volumineux. Nous présentons SLIDERS, un cadre pour la réponse aux questions sur de grandes collections de documents via un raisonnement structuré. SLIDERS extrait les informations saillantes dans une base de données relationnelle, permettant un raisonnement évolutif sur un état structuré persistant via SQL plutôt que sur du texte concaténé. Pour rendre cette représentation extraite localement cohérente globalement, SLIDERS introduit une étape de réconciliation des données qui exploite la provenance, les justifications d'extraction et les métadonnées pour détecter et corriger les enregistrements dupliqués, incohérents et incomplets. SLIDERS surpasse toutes les méthodes de référence sur trois benchmarks existants de contexte long, bien que tous tiennent dans la fenêtre de contexte de LLMs de base performants, dépassant GPT-4.1 de 6,6 points en moyenne. Il améliore également les résultats par rapport à la meilleure baseline suivante d'environ 19 et 32 points sur deux nouveaux benchmarks de respectivement 3,9 millions et 36 millions de tokens.

English

Real-world document question answering is challenging. Analysts must synthesize evidence across multiple documents and different parts of each document. However, any fixed LLM context window can be exceeded as document collections grow. A common workaround is to decompose documents into chunks and assemble answers from chunk-level outputs, but this introduces an aggregation bottleneck: as the number of chunks grows, systems must still combine and reason over an increasingly large body of extracted evidence. We present SLIDERS, a framework for question answering over long document collections through structured reasoning. SLIDERS extracts salient information into a relational database, enabling scalable reasoning over persistent structured state via SQL rather than concatenated text. To make this locally extracted representation globally coherent, SLIDERS introduces a data reconciliation stage that leverages provenance, extraction rationales, and metadata to detect and repair duplicated, inconsistent, and incomplete records. SLIDERS outperforms all baselines on three existing long-context benchmarks, despite all of them fitting within the context window of strong base LLMs, exceeding GPT-4.1 by 6.6 points on average. It also improves over the next best baseline by ~19 and ~32 points on two new benchmarks at 3.9M and 36M tokens, respectively.

Les contextes ne sont jamais assez longs : raisonnement structuré pour un traitement évolutif des questions sur de grands ensembles de documents

Contexts are Never Long Enough: Structured Reasoning for Scalable Question Answering over Long Document Sets

Résumé

Support