ChatPaper.aiChatPaper

Sandbox de Razonamiento Infundido por Recuperación: Un Punto de Referencia para Disociar las Capacidades de Recuperación y Razonamiento

Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities

January 29, 2026
Autores: Shuangshuang Ying, Zheyu Wang, Yunjian Peng, Jin Chen, Yuhao Wu, Hongbin Lin, Dingyu He, Siyi Liu, Gengchen Yu, YinZhu Piao, Yuchen Wu, Xin Gui, Zhongyuan Peng, Xin Li, Xeron Du, Libo Qin, YiXin Cao, Ge Zhang, Stephen Huang
cs.AI

Resumen

A pesar del fuerte rendimiento en los puntos de referencia existentes, sigue sin estar claro si los grandes modelos de lenguaje pueden razonar sobre información científica genuinamente novedosa. La mayoría de las evaluaciones puntúan pipelines de RAG de extremo a extremo, donde el razonamiento se ve confundido por las opciones de recuperación y la cadena de herramientas, y la señal se contamina aún más por la memorización paramétrica y la volatilidad de la web abierta. Presentamos DeR2, un entorno controlado de investigación profunda que aísla el razonamiento fundamentado en documentos mientras preserva las dificultades centrales de la búsqueda profunda: síntesis multi-etapa, eliminación de ruido y elaboración de conclusiones basadas en evidencia. DeR2 desacopla el acceso a la evidencia del razonamiento mediante cuatro regímenes—Solo-instrucción, Conceptos (conceptos clave sin documentos), Solo-relacionados (solo documentos relevantes) y Conjunto-completo (documentos relevantes más distractores temáticamente relacionados)—generando brechas de régimen interpretables que operacionalizan la pérdida por recuperación frente a la pérdida por razonamiento y permiten una atribución de errores granular. Para prevenir la filtración paramétrica, aplicamos una validación en dos fases que exige un fallo paramétrico sin evidencia mientras garantiza la resolubilidad con conceptos clave. Para asegurar la reproducibilidad, cada instancia proporciona una biblioteca de documentos congelada (extraída de artículos teóricos de 2023-2025) con conceptos anotados por expertos y racionalidades validadas. Los experimentos en un conjunto diverso de modelos de base de última generación revelan una variación sustancial y un margen de mejora significativo: algunos modelos exhiben fragilidad de cambio de modo, rindiendo peor con el Conjunto-completo que con Solo-instrucción, mientras que otros muestran un uso estructural incorrecto de conceptos, nombrando correctamente los conceptos pero fallando al ejecutarlos como procedimientos.
English
Despite strong performance on existing benchmarks, it remains unclear whether large language models can reason over genuinely novel scientific information. Most evaluations score end-to-end RAG pipelines, where reasoning is confounded with retrieval and toolchain choices, and the signal is further contaminated by parametric memorization and open-web volatility. We introduce DeR2, a controlled deep-research sandbox that isolates document-grounded reasoning while preserving core difficulties of deep search: multi-step synthesis, denoising, and evidence-based conclusion making. DeR2 decouples evidence access from reasoning via four regimes--Instruction-only, Concepts (gold concepts without documents), Related-only (only relevant documents), and Full-set (relevant documents plus topically related distractors)--yielding interpretable regime gaps that operationalize retrieval loss vs. reasoning loss and enable fine-grained error attribution. To prevent parametric leakage, we apply a two-phase validation that requires parametric failure without evidence while ensuring oracle-concept solvability. To ensure reproducibility, each instance provides a frozen document library (drawn from 2023-2025 theoretical papers) with expert-annotated concepts and validated rationales. Experiments across a diverse set of state-of-the-art foundation models reveal substantial variation and significant headroom: some models exhibit mode-switch fragility, performing worse with the Full-set than with Instruction-only, while others show structural concept misuse, correctly naming concepts but failing to execute them as procedures.
PDF155February 7, 2026