DR^{3}-Eval: Verso una valutazione realistica e riproducibile della ricerca approfondita

Abstract

Gli Agenti di Ricerca Approfondita (DRA) mirano a risolvere complesse attività di ricerca a lungo termine che coinvolgono pianificazione, recupero delle informazioni, comprensione multimodale e generazione di report, ma la loro valutazione rimane problematica a causa degli ambienti web dinamici e delle definizioni di task ambigue. Proponiamo DR^{3}-Eval, un benchmark realistico e riproducibile per valutare gli agenti di ricerca approfondita nella generazione di report multimodali e multi-file. DR^{3}-Eval è costruito a partire da materiali autentici forniti dagli utenti e abbinato a un corpus sandbox di ricerca statico per task che simula la complessità del web aperto pur rimanendo completamente verificabile, contenente documenti di supporto, elementi di disturbo e rumore. Inoltre, introduciamo un framework di valutazione multidimensionale che misura Richiamo delle Informazioni, Accuratezza Fattuale, Copertura delle Citazioni, Aderenza alle Istruzioni e Qualità della Profondità, e ne validiamo l'allineamento con i giudizi umani. Esperimenti con il nostro sistema multi-agente sviluppato DR^{3}-Agent, basato su molteplici modelli linguistici all'avanguardia, dimostrano che DR^{3}-Eval è estremamente impegnativo e rivela modalità di fallimento critiche nella robustezza del retrieval e nel controllo delle allucinazioni. Il nostro codice e i dati sono pubblicamente disponibili.

English

Deep Research Agents (DRAs) aim to solve complex, long-horizon research tasks involving planning, retrieval, multimodal understanding, and report generation, yet their evaluation remains challenging due to dynamic web environments and ambiguous task definitions. We propose DR^{3}-Eval, a realistic and reproducible benchmark for evaluating deep research agents on multimodal, multi-file report generation. DR^{3}-Eval is constructed from authentic user-provided materials and paired with a per-task static research sandbox corpus that simulates open-web complexity while remaining fully verifiable, containing supportive documents, distractors, and noise. Moreover, we introduce a multi-dimensional evaluation framework measuring Information Recall, Factual Accuracy, Citation Coverage, Instruction Following, and Depth Quality, and validate its alignment with human judgments. Experiments with our developed multi-agent system DR^{3}-Agent based on multiple state-of-the-art language models demonstrate that DR^{3}-Eval is highly challenging and reveals critical failure modes in retrieval robustness and hallucination control. Our code and data are publicly available.

DR^{3}-Eval: Verso una valutazione realistica e riproducibile della ricerca approfondita

DR^{3}-Eval: Towards Realistic and Reproducible Deep Research Evaluation

Abstract

Support