ChatPaper.aiChatPaper

DR^{3}-Eval: Verso una valutazione realistica e riproducibile della ricerca approfondita

DR^{3}-Eval: Towards Realistic and Reproducible Deep Research Evaluation

April 16, 2026
Autori: Qianqian Xie, Qingheng Xiong, He Zhu, Tiantian Xia, Xueming Han, Fanyu Meng, Jiakai Wang, Zhiqi Bai, Chengkang Jiang, Zhaohui Wang, Yubin Guo, Yuqing Wen, Jiayang Mao, Zijie Zhang, Shihao Li, Yanghai Wang, Yuxiang Ren, Junlan Feng, Jiaheng Liu
cs.AI

Abstract

Gli Agenti di Ricerca Approfondita (DRA) mirano a risolvere complesse attività di ricerca a lungo termine che coinvolgono pianificazione, recupero delle informazioni, comprensione multimodale e generazione di report, ma la loro valutazione rimane problematica a causa degli ambienti web dinamici e delle definizioni di task ambigue. Proponiamo DR^{3}-Eval, un benchmark realistico e riproducibile per valutare gli agenti di ricerca approfondita nella generazione di report multimodali e multi-file. DR^{3}-Eval è costruito a partire da materiali autentici forniti dagli utenti e abbinato a un corpus sandbox di ricerca statico per task che simula la complessità del web aperto pur rimanendo completamente verificabile, contenente documenti di supporto, elementi di disturbo e rumore. Inoltre, introduciamo un framework di valutazione multidimensionale che misura Richiamo delle Informazioni, Accuratezza Fattuale, Copertura delle Citazioni, Aderenza alle Istruzioni e Qualità della Profondità, e ne validiamo l'allineamento con i giudizi umani. Esperimenti con il nostro sistema multi-agente sviluppato DR^{3}-Agent, basato su molteplici modelli linguistici all'avanguardia, dimostrano che DR^{3}-Eval è estremamente impegnativo e rivela modalità di fallimento critiche nella robustezza del retrieval e nel controllo delle allucinazioni. Il nostro codice e i dati sono pubblicamente disponibili.
English
Deep Research Agents (DRAs) aim to solve complex, long-horizon research tasks involving planning, retrieval, multimodal understanding, and report generation, yet their evaluation remains challenging due to dynamic web environments and ambiguous task definitions. We propose DR^{3}-Eval, a realistic and reproducible benchmark for evaluating deep research agents on multimodal, multi-file report generation. DR^{3}-Eval is constructed from authentic user-provided materials and paired with a per-task static research sandbox corpus that simulates open-web complexity while remaining fully verifiable, containing supportive documents, distractors, and noise. Moreover, we introduce a multi-dimensional evaluation framework measuring Information Recall, Factual Accuracy, Citation Coverage, Instruction Following, and Depth Quality, and validate its alignment with human judgments. Experiments with our developed multi-agent system DR^{3}-Agent based on multiple state-of-the-art language models demonstrate that DR^{3}-Eval is highly challenging and reveals critical failure modes in retrieval robustness and hallucination control. Our code and data are publicly available.
PDF242April 18, 2026