Контексты никогда не бывают достаточно длинными: структурированные рассуждения для масштабируемого ответа на вопросы по большим наборам документов
Contexts are Never Long Enough: Structured Reasoning for Scalable Question Answering over Long Document Sets
April 24, 2026
Авторы: Harshit Joshi, Priyank Shethia, Jadelynn Dao, Monica S. Lam
cs.AI
Аннотация
Решение задач по поиску ответов на вопросы в реальных документах является сложной проблемой. Аналитикам необходимо синтезировать информацию из множества документов и различных разделов каждого документа. Однако при увеличении коллекций документов любой фиксированный контекстный интервал языковых моделей может быть превышен. Распространенным решением является разбиение документов на фрагменты и сбор ответов из фрагментных результатов, но это создает узкое место агрегации: с ростом числа фрагментов системы по-прежнему должны комбинировать и проводить рассуждения над все увеличивающимся объемом извлеченных данных. Мы представляем SLIDERS — фреймворк для ответов на вопросы по большим коллекциям документов с помощью структурированных рассуждений. SLIDERS извлекает ключевую информацию в реляционную базу данных, обеспечивая масштабируемые рассуждения над постоянным структурированным состоянием с помощью SQL вместо конкатенированного текста. Для обеспечения глобальной согласованности локально извлеченного представления SLIDERS вводит этап согласования данных, который использует provenance, обоснования извлечения и метаданные для обнаружения и исправления дублированных, противоречивых и неполных записей. SLIDERS превосходит все базовые методы на трех существующих бенчмарках с длинным контекстом, несмотря на то, что все они укладываются в контекстное окно мощных базовых языковых моделей, опережая GPT-4.1 в среднем на 6.6 баллов. Он также улучшает результаты следующего лучшего базового метода примерно на 19 и 32 балла на двух новых бенчмарках объемом 3.9 млн и 36 млн токенов соответственно.
English
Real-world document question answering is challenging. Analysts must synthesize evidence across multiple documents and different parts of each document. However, any fixed LLM context window can be exceeded as document collections grow. A common workaround is to decompose documents into chunks and assemble answers from chunk-level outputs, but this introduces an aggregation bottleneck: as the number of chunks grows, systems must still combine and reason over an increasingly large body of extracted evidence. We present SLIDERS, a framework for question answering over long document collections through structured reasoning. SLIDERS extracts salient information into a relational database, enabling scalable reasoning over persistent structured state via SQL rather than concatenated text. To make this locally extracted representation globally coherent, SLIDERS introduces a data reconciliation stage that leverages provenance, extraction rationales, and metadata to detect and repair duplicated, inconsistent, and incomplete records. SLIDERS outperforms all baselines on three existing long-context benchmarks, despite all of them fitting within the context window of strong base LLMs, exceeding GPT-4.1 by 6.6 points on average. It also improves over the next best baseline by ~19 and ~32 points on two new benchmarks at 3.9M and 36M tokens, respectively.