Retrieval-Infused Reasoning Sandbox: Een Benchmark voor het Ontkoppelen van Retrieval- en Redeneervermogens
Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities
January 29, 2026
Auteurs: Shuangshuang Ying, Zheyu Wang, Yunjian Peng, Jin Chen, Yuhao Wu, Hongbin Lin, Dingyu He, Siyi Liu, Gengchen Yu, YinZhu Piao, Yuchen Wu, Xin Gui, Zhongyuan Peng, Xin Li, Xeron Du, Libo Qin, YiXin Cao, Ge Zhang, Stephen Huang
cs.AI
Samenvatting
Ondanks sterke prestaties op bestaande benchmarks blijft het onduidelijk of grote taalmodellen kunnen redeneren over werkelijk nieuwe wetenschappelijke informatie. De meeste evaluaties beoordelen end-to-end RAG-pipelines, waarbij redeneren wordt verward met retrievalkeuzes en toolchain-keuzes, en het signaal verder wordt verontreinigd door parametrisch geheugen en volatiliteit van het open web. Wij introduceren DeR2, een gecontroleerde diep-onderzoekssandbox die document-gestuurd redeneren isoleert, terwijl de kernmoeilijkheden van diep zoeken behouden blijven: meerstaps synthese, denoising en op bewijs gebaseerde conclusievorming. DeR2 ontkoppelt toegang tot bewijsmateriaal van redeneren via vier regimes—Alleen-instructie, Concepten (gouden concepten zonder documenten), Alleen-gerelateerd (alleen relevante documenten) en Volledige-set (relevante documenten plus afleidende elementen met gerelateerde onderwerpen)—wat interpreteerbare regimekloven oplevert die retrievalverlies versus redeneerverlies operationaliseren en fijngranulaire fouttoewijzing mogelijk maken. Om parametrisch lekken te voorkomen, passen we een tweefasenvalidatie toe die parametrisch falen vereist zonder bewijsmateriaal, terwijl de oplosbaarheid met orakelconcepten wordt gegarandeerd. Om reproduceerbaarheid te waarborgen, biedt elke instantie een bevroren documentenbibliotheek (onttrokken aan theoretische artikelen uit 2023-2025) met door experts geannoteerde concepten en gevalideerde redeneringen. Experimenten met een diverse reeks state-of-the-art foundationmodellen onthullen aanzienlijke variatie en significante verbeteringsruimte: sommige modellen vertonen moduswisselingsfragiliteit en presteren slechter met de Volledige-set dan met Alleen-instructie, terwijl andere structureel conceptmisbruik vertonen door concepten correct te benoemen maar te falen in de uitvoering ervan als procedures.
English
Despite strong performance on existing benchmarks, it remains unclear whether large language models can reason over genuinely novel scientific information. Most evaluations score end-to-end RAG pipelines, where reasoning is confounded with retrieval and toolchain choices, and the signal is further contaminated by parametric memorization and open-web volatility. We introduce DeR2, a controlled deep-research sandbox that isolates document-grounded reasoning while preserving core difficulties of deep search: multi-step synthesis, denoising, and evidence-based conclusion making. DeR2 decouples evidence access from reasoning via four regimes--Instruction-only, Concepts (gold concepts without documents), Related-only (only relevant documents), and Full-set (relevant documents plus topically related distractors)--yielding interpretable regime gaps that operationalize retrieval loss vs. reasoning loss and enable fine-grained error attribution. To prevent parametric leakage, we apply a two-phase validation that requires parametric failure without evidence while ensuring oracle-concept solvability. To ensure reproducibility, each instance provides a frozen document library (drawn from 2023-2025 theoretical papers) with expert-annotated concepts and validated rationales. Experiments across a diverse set of state-of-the-art foundation models reveal substantial variation and significant headroom: some models exhibit mode-switch fragility, performing worse with the Full-set than with Instruction-only, while others show structural concept misuse, correctly naming concepts but failing to execute them as procedures.