ChatPaper.aiChatPaper

検索推論分離ベンチマーク:検索能力と推論能力の分離を目指す評価環境

Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities

January 29, 2026
著者: Shuangshuang Ying, Zheyu Wang, Yunjian Peng, Jin Chen, Yuhao Wu, Hongbin Lin, Dingyu He, Siyi Liu, Gengchen Yu, YinZhu Piao, Yuchen Wu, Xin Gui, Zhongyuan Peng, Xin Li, Xeron Du, Libo Qin, YiXin Cao, Ge Zhang, Stephen Huang
cs.AI

要旨

既存のベンチマークで高い性能を示すにも関わらず、大規模言語モデルが真に新奇な科学的情報に対して推論できるかどうかは不明瞭である。現在の評価手法の多くはエンドツーエンドのRAGパイプラインを対象としており、推論能力が検索やツールチェーンの選択と混同され、さらにパラメトリック記憶とオープンウェブの不安定性によって信号が汚染されている。本論文では、深い検索の核心的な困難性(多段階の統合、ノイズ除去、証拠に基づく結論形成)を維持しつつ、文書に基づく推論を分離した制御環境「DeR2」を提案する。DeR2は、証拠へのアクセスと推論を4つの体制(Instruction-only、Concepts、Related-only、Full-set)によって分離し、検索損失と推論損失を操作可能にするとともに、解釈可能な体制間ギャップを生成することで、細粒度な誤り帰属を可能にする。パラメトリックな情報漏洩を防ぐため、証拠なしではパラメトリックに解決不能であることを要求しつつ、オラクル概念による解決可能性を保証する二段階検証を適用する。再現性を確保するため、各インスタンスは凍結された文書ライブラリ(2023-2025年に発表された理論論文から抽出)と、専門家による注釈付き概念、検証済み理論的根拠を提供する。多様な最先端基盤モデルを用いた実験では、大きな性能差と有意な改善余地が明らかとなった:Full-set条件下ではInstruction-onlyよりも性能が低下するモード切替脆弱性を示すモデルがある一方、概念を正しく列挙しながら手続きとして実行できない構造的概念誤用を示すモデルも存在した。
English
Despite strong performance on existing benchmarks, it remains unclear whether large language models can reason over genuinely novel scientific information. Most evaluations score end-to-end RAG pipelines, where reasoning is confounded with retrieval and toolchain choices, and the signal is further contaminated by parametric memorization and open-web volatility. We introduce DeR2, a controlled deep-research sandbox that isolates document-grounded reasoning while preserving core difficulties of deep search: multi-step synthesis, denoising, and evidence-based conclusion making. DeR2 decouples evidence access from reasoning via four regimes--Instruction-only, Concepts (gold concepts without documents), Related-only (only relevant documents), and Full-set (relevant documents plus topically related distractors)--yielding interpretable regime gaps that operationalize retrieval loss vs. reasoning loss and enable fine-grained error attribution. To prevent parametric leakage, we apply a two-phase validation that requires parametric failure without evidence while ensuring oracle-concept solvability. To ensure reproducibility, each instance provides a frozen document library (drawn from 2023-2025 theoretical papers) with expert-annotated concepts and validated rationales. Experiments across a diverse set of state-of-the-art foundation models reveal substantial variation and significant headroom: some models exhibit mode-switch fragility, performing worse with the Full-set than with Instruction-only, while others show structural concept misuse, correctly naming concepts but failing to execute them as procedures.
PDF155February 7, 2026