ChatPaper.aiChatPaper

Sandbox de Raisonnement Infusé par la Récupération : Un Référentiel pour Découpler les Capacités de Récupération et de Raisonnement

Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities

January 29, 2026
papers.authors: Shuangshuang Ying, Zheyu Wang, Yunjian Peng, Jin Chen, Yuhao Wu, Hongbin Lin, Dingyu He, Siyi Liu, Gengchen Yu, YinZhu Piao, Yuchen Wu, Xin Gui, Zhongyuan Peng, Xin Li, Xeron Du, Libo Qin, YiXin Cao, Ge Zhang, Stephen Huang
cs.AI

papers.abstract

Malgré de solides performances sur les benchmarks existants, il reste incertain si les grands modèles de langage peuvent raisonner sur des informations scientifiques véritablement nouvelles. La plupart des évaluations notent des pipelines RAG de bout en bout, où le raisonnement est confondu avec les choix de récupération et de chaîne d'outils, et le signal est en outre contaminé par la mémorisation paramétrique et la volatilité du web ouvert. Nous présentons DeR2, un bac à sable contrôlé pour la recherche approfondie qui isole le raisonnement ancré dans les documents tout en préservant les difficultés fondamentales de la recherche approfondie : la synthèse multi-étapes, le débruitage et l'élaboration de conclusions fondées sur des preuves. DeR2 découple l'accès aux preuves du raisonnement via quatre régimes — Instruction uniquement, Concepts (concepts de référence sans documents), Documents connexes uniquement (uniquement les documents pertinents), et Ensemble complet (documents pertinents plus des distracteurs thématiquement liés) — produisant des écarts de régime interprétables qui opérationnalisent la perte due à la récupération versus la perte due au raisonnement et permettent une attribution d'erreur fine. Pour empêcher les fuites paramétriques, nous appliquons une validation en deux phases qui exige un échec paramétrique sans preuve tout en garantissant la résolvabilité avec les concepts de référence. Pour assurer la reproductibilité, chaque instance fournit une bibliothèque documentaire figée (tirée d'articles théoriques de 2023-2025) avec des concepts annotés par des experts et des rationalités validées. Les expériences sur un ensemble diversifié de modèles de fondation à la pointe révèlent des variations substantielles et une marge de progression significative : certains modèles présentent une fragilité de commutation de mode, obtenant de moins bons résultats avec l'Ensemble complet qu'avec le régime Instruction uniquement, tandis que d'autres montrent un mésusage structurel des concepts, citant correctement les concepts mais échouant à les exécuter en tant que procédures.
English
Despite strong performance on existing benchmarks, it remains unclear whether large language models can reason over genuinely novel scientific information. Most evaluations score end-to-end RAG pipelines, where reasoning is confounded with retrieval and toolchain choices, and the signal is further contaminated by parametric memorization and open-web volatility. We introduce DeR2, a controlled deep-research sandbox that isolates document-grounded reasoning while preserving core difficulties of deep search: multi-step synthesis, denoising, and evidence-based conclusion making. DeR2 decouples evidence access from reasoning via four regimes--Instruction-only, Concepts (gold concepts without documents), Related-only (only relevant documents), and Full-set (relevant documents plus topically related distractors)--yielding interpretable regime gaps that operationalize retrieval loss vs. reasoning loss and enable fine-grained error attribution. To prevent parametric leakage, we apply a two-phase validation that requires parametric failure without evidence while ensuring oracle-concept solvability. To ensure reproducibility, each instance provides a frozen document library (drawn from 2023-2025 theoretical papers) with expert-annotated concepts and validated rationales. Experiments across a diverse set of state-of-the-art foundation models reveal substantial variation and significant headroom: some models exhibit mode-switch fragility, performing worse with the Full-set than with Instruction-only, while others show structural concept misuse, correctly naming concepts but failing to execute them as procedures.
PDF155February 7, 2026