Os Contextos Nunca São Longos o Suficiente: Raciocínio Estruturado para Escalonamento de Respostas a Perguntas sobre Conjuntos de Documentos Longos

Resumo

A resposta a perguntas em documentos do mundo real é um desafio complexo. Os analistas precisam sintetizar evidências de múltiplos documentos e de diferentes partes de cada documento. No entanto, qualquer janela de contexto fixa de um LLM pode ser excedida à medida que as coleções de documentos crescem. Uma solução comum é decompor os documentos em partes e montar respostas a partir de saídas no nível dessas partes, mas isso introduz um gargalo de agregação: à medida que o número de partes aumenta, os sistemas ainda precisam combinar e raciocinar sobre um volume cada vez maior de evidências extraídas. Apresentamos o SLIDERS, uma estrutura para resposta a perguntas em longas coleções de documentos por meio de raciocínio estruturado. O SLIDERS extrai informações salientes para uma base de dados relacional, permitindo um raciocínio escalável sobre um estado estruturado persistente via SQL, em vez de texto concatenado. Para tornar esta representação extraída localmente coerente globalmente, o SLIDERS introduz uma fase de reconciliação de dados que aproveita a proveniência, as razões de extração e metadados para detetar e reparar registos duplicados, inconsistentes e incompletos. O SLIDERS supera todas as linhas de base em três benchmarks existentes de contexto longo, apesar de todos eles caberem na janela de contexto de LLMs base fortes, excedendo o GPT-4.1 em 6,6 pontos em média. Também melhora em relação à próxima melhor linha de base em aproximadamente 19 e 32 pontos em dois novos benchmarks com 3,9M e 36M de *tokens*, respetivamente.

English

Real-world document question answering is challenging. Analysts must synthesize evidence across multiple documents and different parts of each document. However, any fixed LLM context window can be exceeded as document collections grow. A common workaround is to decompose documents into chunks and assemble answers from chunk-level outputs, but this introduces an aggregation bottleneck: as the number of chunks grows, systems must still combine and reason over an increasingly large body of extracted evidence. We present SLIDERS, a framework for question answering over long document collections through structured reasoning. SLIDERS extracts salient information into a relational database, enabling scalable reasoning over persistent structured state via SQL rather than concatenated text. To make this locally extracted representation globally coherent, SLIDERS introduces a data reconciliation stage that leverages provenance, extraction rationales, and metadata to detect and repair duplicated, inconsistent, and incomplete records. SLIDERS outperforms all baselines on three existing long-context benchmarks, despite all of them fitting within the context window of strong base LLMs, exceeding GPT-4.1 by 6.6 points on average. It also improves over the next best baseline by ~19 and ~32 points on two new benchmarks at 3.9M and 36M tokens, respectively.

Os Contextos Nunca São Longos o Suficiente: Raciocínio Estruturado para Escalonamento de Respostas a Perguntas sobre Conjuntos de Documentos Longos

Contexts are Never Long Enough: Structured Reasoning for Scalable Question Answering over Long Document Sets

Resumo

Support