Ambiente de Raciocínio Aprimorado por Recuperação: Um Benchmark para Desacoplar Capacidades de Recuperação e Raciocínio
Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities
January 29, 2026
Autores: Shuangshuang Ying, Zheyu Wang, Yunjian Peng, Jin Chen, Yuhao Wu, Hongbin Lin, Dingyu He, Siyi Liu, Gengchen Yu, YinZhu Piao, Yuchen Wu, Xin Gui, Zhongyuan Peng, Xin Li, Xeron Du, Libo Qin, YiXin Cao, Ge Zhang, Stephen Huang
cs.AI
Resumo
Apesar do forte desempenho em *benchmarks* existentes, permanece pouco claro se os grandes modelos de linguagem podem raciocinar sobre informações científicas genuinamente novas. A maioria das avaliações pontua *pipelines* de RAG de ponta a ponta, nos quais o raciocínio é confundido com escolhas de recuperação e de cadeia de ferramentas, e o sinal é ainda mais contaminado pela memorização paramétrica e pela volatilidade da web aberta. Apresentamos o DeR², um *sandbox* controlado de pesquisa profunda que isola o raciocínio fundamentado em documentos, preservando as dificuldades centrais da pesquisa profunda: síntese multi-etapas, remoção de ruído e elaboração de conclusões baseadas em evidências. O DeR² desacopla o acesso às evidências do raciocínio por meio de quatro regimes—Apenas Instrução, Conceitos (conceitos *gold* sem documentos), Apenas Relacionados (apenas documentos relevantes) e Conjunto Completo (documentos relevantes mais distratores topicamente relacionados)—produzindo lacunas de regime interpretáveis que operacionalizam a perda de recuperação versus a perda de raciocínio e permitem uma atribuição de erro refinada. Para evitar vazamento paramétrico, aplicamos uma validação de duas fases que exige falha paramétrica sem evidências, garantindo ao mesmo tempo a solucionabilidade com conceitos *oráculo*. Para garantir a reprodutibilidade, cada instância fornece uma biblioteca de documentos congelada (extraída de artigos teóricos de 2023-2025) com conceitos anotados por especialistas e racionalidades validadas. Experimentos com um conjunto diversificado de modelos de base (*foundation models*) state-of-the-art revelam variação substancial e margem de progresso significativa: alguns modelos exibem fragilidade de comutação de modo, desempenhando pior com o Conjunto Completo do que com Apenas Instrução, enquanto outros mostram uso estrutural incorreto de conceitos, nomeando corretamente os conceitos, mas falhando em executá-los como procedimentos.
English
Despite strong performance on existing benchmarks, it remains unclear whether large language models can reason over genuinely novel scientific information. Most evaluations score end-to-end RAG pipelines, where reasoning is confounded with retrieval and toolchain choices, and the signal is further contaminated by parametric memorization and open-web volatility. We introduce DeR2, a controlled deep-research sandbox that isolates document-grounded reasoning while preserving core difficulties of deep search: multi-step synthesis, denoising, and evidence-based conclusion making. DeR2 decouples evidence access from reasoning via four regimes--Instruction-only, Concepts (gold concepts without documents), Related-only (only relevant documents), and Full-set (relevant documents plus topically related distractors)--yielding interpretable regime gaps that operationalize retrieval loss vs. reasoning loss and enable fine-grained error attribution. To prevent parametric leakage, we apply a two-phase validation that requires parametric failure without evidence while ensuring oracle-concept solvability. To ensure reproducibility, each instance provides a frozen document library (drawn from 2023-2025 theoretical papers) with expert-annotated concepts and validated rationales. Experiments across a diverse set of state-of-the-art foundation models reveal substantial variation and significant headroom: some models exhibit mode-switch fragility, performing worse with the Full-set than with Instruction-only, while others show structural concept misuse, correctly naming concepts but failing to execute them as procedures.