검색-강화 추론 샌드박스: 검색과 추론 능력의 분리를 위한 벤치마크
Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities
January 29, 2026
저자: Shuangshuang Ying, Zheyu Wang, Yunjian Peng, Jin Chen, Yuhao Wu, Hongbin Lin, Dingyu He, Siyi Liu, Gengchen Yu, YinZhu Piao, Yuchen Wu, Xin Gui, Zhongyuan Peng, Xin Li, Xeron Du, Libo Qin, YiXin Cao, Ge Zhang, Stephen Huang
cs.AI
초록
기존 벤치마크에서 강력한 성능을 보임에도 불구하고, 대규모 언어 모델이 진정으로 새로운 과학적 정보를 기반으로 사고할 수 있는지 여부는 여전히 불분명합니다. 대부분의 평가는 종단 간 RAG 파이프라인의 성능을 점수화하는데, 여기서는 사고 과정이 검색 및 도구 체인 선택과 혼재되고, 매개변수 기억화 및 오픈 웹의 변동성으로 인해 신호가 더욱 오염됩니다. 본 연구에서는 문서 기반 사고를 분리하면서도 심층 탐색의 핵심 난제인 다단계 종합, 노이즈 제거, 증거 기반 결론 도출을 보존하는 통제된 심층 연구 샌드박스인 DeR2를 소개합니다. DeR2는 네 가지 체계—지시어 전용, 개념(문서 없이 핵심 개념 제공), 관련 문서 전용, 전체 집합(관련 문서 및 주제별 관련 방해 문서)—를 통해 증거 접근성과 사고 과정을 분리하여, 검색 손실 대 사고 손실을 운영적으로 정의하고 세분화된 오류 귀속을 가능하게 하는 해석 가능한 체계 간 차이를 제공합니다. 매개변수 정보 누출을 방지하기 위해, 증거 없이는 매개변수 모델이 실패해야 하면서도 오라클 개념을 통해 문제 해결이 가능함을 보장하는 2단계 검증 절차를 적용합니다. 재현성을 보장하기 위해 각 인스턴스는 전문가가 주석을 단 개념과 검증된 근거와 함께 고정된 문서 라이브러리(2023-2025년 이론 논문에서 추출)를 제공합니다. 다양한 최첨단 기초 모델을 대상으로 한 실험은 상당한 변동성과 중요한 개선 여지를 드러냈습니다: 일부 모델은 전체 집합 조건에서 지시어 전용 조건보다 성능이 더 나쁜 모드 전환 취약성을 보인 반면, 다른 모델들은 개념을 정확히 언급하지만 절차로서 실행하는 데 실패하는 구조적 개념 오용을 보였습니다.
English
Despite strong performance on existing benchmarks, it remains unclear whether large language models can reason over genuinely novel scientific information. Most evaluations score end-to-end RAG pipelines, where reasoning is confounded with retrieval and toolchain choices, and the signal is further contaminated by parametric memorization and open-web volatility. We introduce DeR2, a controlled deep-research sandbox that isolates document-grounded reasoning while preserving core difficulties of deep search: multi-step synthesis, denoising, and evidence-based conclusion making. DeR2 decouples evidence access from reasoning via four regimes--Instruction-only, Concepts (gold concepts without documents), Related-only (only relevant documents), and Full-set (relevant documents plus topically related distractors)--yielding interpretable regime gaps that operationalize retrieval loss vs. reasoning loss and enable fine-grained error attribution. To prevent parametric leakage, we apply a two-phase validation that requires parametric failure without evidence while ensuring oracle-concept solvability. To ensure reproducibility, each instance provides a frozen document library (drawn from 2023-2025 theoretical papers) with expert-annotated concepts and validated rationales. Experiments across a diverse set of state-of-the-art foundation models reveal substantial variation and significant headroom: some models exhibit mode-switch fragility, performing worse with the Full-set than with Instruction-only, while others show structural concept misuse, correctly naming concepts but failing to execute them as procedures.