컨텍스트는 항상 부족하다: 장문 문서 집합에 대한 확장성 있는 질의응답을 위한 구조화된 추론
Contexts are Never Long Enough: Structured Reasoning for Scalable Question Answering over Long Document Sets
April 24, 2026
저자: Harshit Joshi, Priyank Shethia, Jadelynn Dao, Monica S. Lam
cs.AI
초록
실세계 문서 질의응답은 어려운 과제입니다. 분석가는 여러 문서와 각 문서의 서로 다른 부분에 걸쳐 증거를 종합해야 합니다. 그러나 문서 집합이 커지면 고정된 LLM 컨텍스트 윈도우를 초과할 수 있습니다. 일반적인 해결 방법은 문서를 청크로 분해하고 청크 수준의 출력을 조합하여 답변을 구성하는 것이지만, 이는 집계 병목 현상을 초래합니다. 즉, 청크 수가 증가함에 따라 시스템은 여전히 추출된 방대한 증거를 결합하고 추론해야 합니다. 우리는 구조화된 추론을 통해 장문 문서 집합에 대한 질의응답을 수행하는 SLIDERS 프레임워크를 제시합니다. SLIDERS는 핵심 정보를 관계형 데이터베이스로 추출하여 연결된 텍스트가 아닌 SQL을 통해 지속적인 구조화된 상태에 대한 확장 가능한 추론을 가능하게 합니다. 이렇게 지역적으로 추출된 표현을 전역적으로 일관성 있게 만들기 위해 SLIDERS는 출처, 추출 근거 및 메타데이터를 활용하여 중복되거나 불일치하거나 불완전한 레코드를 감지하고 수정하는 데이터 조정 단계를 도입합니다. SLIDERS는 강력한 기본 LLM의 컨텍스트 윈도우에 모두 포함되는 기존의 세 가지 장문 컨텍스트 벤치마크에서 모든 기준 모델을 능가하며, GPT-4.1보다 평균 6.6점 높은 성능을 보입니다. 또한 각각 390만 토큰과 3,600만 토큰 규모의 두 가지 새로운 벤치마크에서 차기 최고 기준 모델 대비 약 19점과 약 32점의 성능 향상을 달성했습니다.
English
Real-world document question answering is challenging. Analysts must synthesize evidence across multiple documents and different parts of each document. However, any fixed LLM context window can be exceeded as document collections grow. A common workaround is to decompose documents into chunks and assemble answers from chunk-level outputs, but this introduces an aggregation bottleneck: as the number of chunks grows, systems must still combine and reason over an increasingly large body of extracted evidence. We present SLIDERS, a framework for question answering over long document collections through structured reasoning. SLIDERS extracts salient information into a relational database, enabling scalable reasoning over persistent structured state via SQL rather than concatenated text. To make this locally extracted representation globally coherent, SLIDERS introduces a data reconciliation stage that leverages provenance, extraction rationales, and metadata to detect and repair duplicated, inconsistent, and incomplete records. SLIDERS outperforms all baselines on three existing long-context benchmarks, despite all of them fitting within the context window of strong base LLMs, exceeding GPT-4.1 by 6.6 points on average. It also improves over the next best baseline by ~19 and ~32 points on two new benchmarks at 3.9M and 36M tokens, respectively.