Sandbox per il Ragionamento Arricchito dal Recupero: Un Benchmark per Disaccoppiare le Capacità di Recupero e Ragionamento

Abstract

Nonostante le prestazioni solide sui benchmark esistenti, rimane poco chiaro se i grandi modelli linguistici siano in grado di ragionare su informazioni scientifiche genuinamente nuove. La maggior parte delle valutazioni assegna punteggi a pipeline RAG end-to-end, dove il ragionamento è confuso con le scelte di retrieval e della toolchain, e il segnale è ulteriormente contaminato dalla memorizzazione parametrica e dalla volatilità del web aperto. Introduciamo DeR2, un sandbox controllato per la deep-research che isola il ragionamento basato su documenti, preservando al contempo le difficoltà fondamentali della ricerca approfondita: sintesi multi-step, denoising e formulazione di conclusioni basate su evidenze. DeR2 disaccoppia l'accesso alle evidenze dal ragionamento attraverso quattro regimi – Solo Istruzione, Concetti (concetti gold senza documenti), Solo Correlati (solo documenti rilevanti) e Set Completo (documenti rilevanti più distrattori tematicamente correlati) – producendo gap di regime interpretabili che operazionalizzano la perdita di retrieval rispetto alla perdita di ragionamento e consentono un'attribuzione degli errori granulare. Per prevenire la dispersione parametrica, applichiamo una validazione in due fasi che richiede il fallimento parametrico in assenza di evidenze, assicurando al contempo la risolvibilità con concetti oracolo. Per garantire la riproducibilità, ogni istanza fornisce una libreria documentale congelata (estratta da articoli teorici del 2023-2025) con concetti annotati da esperti e razionali validati. Esperimenti condotti su un insieme diversificato di modelli fondazionali all'avanguardia rivelano una variazione sostanziale e un margine di miglioramento significativo: alcuni modelli mostrano una fragilità di cambio di modalità, performando peggio con il Set Completo rispetto al Solo Istruzione, mentre altri mostrano un uso strutturalmente improprio dei concetti, nominandoli correttamente ma fallendo nell'eseguirli come procedure.

English

Despite strong performance on existing benchmarks, it remains unclear whether large language models can reason over genuinely novel scientific information. Most evaluations score end-to-end RAG pipelines, where reasoning is confounded with retrieval and toolchain choices, and the signal is further contaminated by parametric memorization and open-web volatility. We introduce DeR2, a controlled deep-research sandbox that isolates document-grounded reasoning while preserving core difficulties of deep search: multi-step synthesis, denoising, and evidence-based conclusion making. DeR2 decouples evidence access from reasoning via four regimes--Instruction-only, Concepts (gold concepts without documents), Related-only (only relevant documents), and Full-set (relevant documents plus topically related distractors)--yielding interpretable regime gaps that operationalize retrieval loss vs. reasoning loss and enable fine-grained error attribution. To prevent parametric leakage, we apply a two-phase validation that requires parametric failure without evidence while ensuring oracle-concept solvability. To ensure reproducibility, each instance provides a frozen document library (drawn from 2023-2025 theoretical papers) with expert-annotated concepts and validated rationales. Experiments across a diverse set of state-of-the-art foundation models reveal substantial variation and significant headroom: some models exhibit mode-switch fragility, performing worse with the Full-set than with Instruction-only, while others show structural concept misuse, correctly naming concepts but failing to execute them as procedures.

Sandbox per il Ragionamento Arricchito dal Recupero: Un Benchmark per Disaccoppiare le Capacità di Recupero e Ragionamento

Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities

Abstract

Support