Песочница для рассуждений с обогащением данных: эталонный тест для разделения возможностей поиска и логического вывода
Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities
January 29, 2026
Авторы: Shuangshuang Ying, Zheyu Wang, Yunjian Peng, Jin Chen, Yuhao Wu, Hongbin Lin, Dingyu He, Siyi Liu, Gengchen Yu, YinZhu Piao, Yuchen Wu, Xin Gui, Zhongyuan Peng, Xin Li, Xeron Du, Libo Qin, YiXin Cao, Ge Zhang, Stephen Huang
cs.AI
Аннотация
Несмотря на высокие результаты существующих бенчмарков, остается неясным, способны ли большие языковые модели к рассуждению на основе принципиально новой научной информации. Большинство оценок тестируют сквозные RAG-пайплайны, где рассуждения смешаны с выбором стратегий поиска и инструментов, а сигнал дополнительно искажается параметрическим запоминанием и нестабильностью открытого веба. Мы представляем DeR2 — контролируемую среду для глубокого исследования, которая изолирует документированное рассуждение, сохраняя при этом ключевые сложности глубокого поиска: многошаговый синтез, удаление шума и формирование выводов на основе доказательств. DeR2 разделяет доступ к доказательствам и рассуждение через четыре режима — «Только инструкция», «Концепции» (золотые концепции без документов), «Только релевантные» (только соответствующие документы) и «Полный набор» (релевантные документы плюс тематически связанные дистракторы) — что дает интерпретируемые разрывы между режимами, операционализирующие потери при поиске и потери при рассуждении, и позволяет точно атрибутировать ошибки. Для предотвращения параметрической утечки мы применяем двухфазную валидацию, требующую неудачи модели без доказательств при гарантированной разрешимости с оракульными концепциями. Для обеспечения воспроизводимости каждый пример снабжается фиксированной библиотекой документов (из теоретических статей 2023–2025 гг.) с экспертными аннотациями концепций и валидированными обоснованиями. Эксперименты с разнообразными современными фундаментальными моделями выявляют значительные вариации и существенный потенциал для улучшений: некоторые модели демонстрируют хрупкость переключения режимов, показывая худшие результаты с «Полным набором», чем с «Только инструкцией», тогда как другие проявляют структурное неверное использование концепций — правильно называя их, но не применяя как процедуры.
English
Despite strong performance on existing benchmarks, it remains unclear whether large language models can reason over genuinely novel scientific information. Most evaluations score end-to-end RAG pipelines, where reasoning is confounded with retrieval and toolchain choices, and the signal is further contaminated by parametric memorization and open-web volatility. We introduce DeR2, a controlled deep-research sandbox that isolates document-grounded reasoning while preserving core difficulties of deep search: multi-step synthesis, denoising, and evidence-based conclusion making. DeR2 decouples evidence access from reasoning via four regimes--Instruction-only, Concepts (gold concepts without documents), Related-only (only relevant documents), and Full-set (relevant documents plus topically related distractors)--yielding interpretable regime gaps that operationalize retrieval loss vs. reasoning loss and enable fine-grained error attribution. To prevent parametric leakage, we apply a two-phase validation that requires parametric failure without evidence while ensuring oracle-concept solvability. To ensure reproducibility, each instance provides a frozen document library (drawn from 2023-2025 theoretical papers) with expert-annotated concepts and validated rationales. Experiments across a diverse set of state-of-the-art foundation models reveal substantial variation and significant headroom: some models exhibit mode-switch fragility, performing worse with the Full-set than with Instruction-only, while others show structural concept misuse, correctly naming concepts but failing to execute them as procedures.