ChatPaper.aiChatPaper

Retrieval-Infused Reasoning Sandbox: Ein Benchmark zur Entkopplung von Retrieval- und Reasoning-Fähigkeiten

Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities

January 29, 2026
papers.authors: Shuangshuang Ying, Zheyu Wang, Yunjian Peng, Jin Chen, Yuhao Wu, Hongbin Lin, Dingyu He, Siyi Liu, Gengchen Yu, YinZhu Piao, Yuchen Wu, Xin Gui, Zhongyuan Peng, Xin Li, Xeron Du, Libo Qin, YiXin Cao, Ge Zhang, Stephen Huang
cs.AI

papers.abstract

Trotz starker Leistung in bestehenden Benchmarks bleibt unklar, ob große Sprachmodelle tatsächlich über neuartige wissenschaftliche Informationen reasoning betreiben können. Die meisten Evaluationen bewerten end-to-end RAG-Pipelines, bei denen Reasoning mit Retrieval- und Toolchain-Entscheidungen konfundiert wird, während das Signal zusätzlich durch parametrisches Memorieren und Volatilität offener Webquellen kontaminiert wird. Wir stellen DeR2 vor, eine kontrollierte Deep-Research-Sandbox, die dokumentenbasiertes Reasoning isoliert, während sie die Kernschwierigkeiten tiefer Recherche bewahrt: mehrstufige Synthese, Denoising und evidenzbasierte Schlussfolgerungen. DeR2 entkoppelt den Evidenzzugang vom Reasoning durch vier Regime – Instruction-only, Concepts (Gold-Konzepte ohne Dokumente), Related-only (nur relevante Dokumente) und Full-set (relevante Dokumente plus thematisch verwandte Distraktoren) – was interpretierbare Regime-Lücken ergibt, die Retrieval-Verlust versus Reasoning-Verlust operationalisieren und feingranulare Fehlerattribution ermöglichen. Um parametrisches Leaking zu verhindern, wenden wir eine zweiphasige Validierung an, die parametrisches Scheitern ohne Evidenz erfordert, während Lösbarkeit mit Oracle-Konzepten sichergestellt wird. Zur Gewährleistung von Reproduzierbarkeit bietet jede Instanz eine eingefrorene Dokumentbibliothek (aus theoretischen Arbeiten von 2023–2025) mit expertenannotierten Konzepten und validierten Rationales. Experimente mit diversen State-of-the-Art-Foundation-Modellen zeigen erhebliche Variation und signifikanten Verbesserungsspielraum: Einige Modelle zeigen Moduswechsel-Fragilität und performen schlechter mit dem Full-set als mit Instruction-only, während andere strukturellen Konzeptfehlgebrauch aufweisen, indem sie Konzepte korrekt benennen, aber scheitern, sie als Prozeduren anzuwenden.
English
Despite strong performance on existing benchmarks, it remains unclear whether large language models can reason over genuinely novel scientific information. Most evaluations score end-to-end RAG pipelines, where reasoning is confounded with retrieval and toolchain choices, and the signal is further contaminated by parametric memorization and open-web volatility. We introduce DeR2, a controlled deep-research sandbox that isolates document-grounded reasoning while preserving core difficulties of deep search: multi-step synthesis, denoising, and evidence-based conclusion making. DeR2 decouples evidence access from reasoning via four regimes--Instruction-only, Concepts (gold concepts without documents), Related-only (only relevant documents), and Full-set (relevant documents plus topically related distractors)--yielding interpretable regime gaps that operationalize retrieval loss vs. reasoning loss and enable fine-grained error attribution. To prevent parametric leakage, we apply a two-phase validation that requires parametric failure without evidence while ensuring oracle-concept solvability. To ensure reproducibility, each instance provides a frozen document library (drawn from 2023-2025 theoretical papers) with expert-annotated concepts and validated rationales. Experiments across a diverse set of state-of-the-art foundation models reveal substantial variation and significant headroom: some models exhibit mode-switch fragility, performing worse with the Full-set than with Instruction-only, while others show structural concept misuse, correctly naming concepts but failing to execute them as procedures.
PDF155February 7, 2026