Los contextos nunca son lo suficientemente largos: razonamiento estructurado para la respuesta escalable de preguntas sobre conjuntos de documentos extensos

Resumen

La respuesta a preguntas sobre documentos del mundo real es un desafío complejo. Los analistas deben sintetizar evidencias a través de múltiples documentos y diferentes secciones de cada documento. Sin embargo, cualquier ventana de contexto fija de un modelo de lenguaje grande (LLM) puede verse superada a medida que crecen las colecciones documentales. Una solución común consiste en descomponer los documentos en fragmentos y ensamblar respuestas a partir de salidas a nivel de fragmento, pero esto introduce un cuello de botella en la agregación: a medida que aumenta el número de fragmentos, los sistemas aún deben combinar y razonar sobre un cuerpo de evidencia extraída cada vez más grande. Presentamos SLIDERS, un marco para respuesta a preguntas sobre colecciones extensas de documentos mediante razonamiento estructurado. SLIDERS extrae información relevante a una base de datos relacional, permitiendo un razonamiento escalable sobre un estado estructurado persistente mediante SQL en lugar de texto concatenado. Para que esta representación extraída localmente sea globalmente coherente, SLIDERS introduce una etapa de reconciliación de datos que aprovecha la procedencia, las justificaciones de extracción y los metadatos para detectar y reparar registros duplicados, inconsistentes e incompletos. SLIDERS supera a todos los modelos de referencia en tres benchmarks existentes de contexto largo, a pesar de que todos ellos caben dentro de la ventana de contexto de LLMs base potentes, superando a GPT-4.1 en 6.6 puntos de media. También mejora respecto al siguiente mejor baseline en aproximadamente ~19 y ~32 puntos en dos nuevos benchmarks de 3.9M y 36M de tokens, respectivamente.

English

Real-world document question answering is challenging. Analysts must synthesize evidence across multiple documents and different parts of each document. However, any fixed LLM context window can be exceeded as document collections grow. A common workaround is to decompose documents into chunks and assemble answers from chunk-level outputs, but this introduces an aggregation bottleneck: as the number of chunks grows, systems must still combine and reason over an increasingly large body of extracted evidence. We present SLIDERS, a framework for question answering over long document collections through structured reasoning. SLIDERS extracts salient information into a relational database, enabling scalable reasoning over persistent structured state via SQL rather than concatenated text. To make this locally extracted representation globally coherent, SLIDERS introduces a data reconciliation stage that leverages provenance, extraction rationales, and metadata to detect and repair duplicated, inconsistent, and incomplete records. SLIDERS outperforms all baselines on three existing long-context benchmarks, despite all of them fitting within the context window of strong base LLMs, exceeding GPT-4.1 by 6.6 points on average. It also improves over the next best baseline by ~19 and ~32 points on two new benchmarks at 3.9M and 36M tokens, respectively.

Los contextos nunca son lo suficientemente largos: razonamiento estructurado para la respuesta escalable de preguntas sobre conjuntos de documentos extensos

Contexts are Never Long Enough: Structured Reasoning for Scalable Question Answering over Long Document Sets

Resumen

Support