Quanto Siamo Lontani da Agenti di Ricerca Approfondita Veramente Utili?
How Far Are We from Genuinely Useful Deep Research Agents?
December 1, 2025
Autori: Dingling Zhang, He Zhu, Jincheng Ren, Kangqi Song, Xinran Zhou, Boyu Feng, Shudong Liu, Jiabin Luo, Weihao Xie, Zhaohui Wang, Tianrui Qin, King Zhu, Yuqing Wang, Qianben Chen, Yuchen Eleanor Jiang, Wei Wang, Jiaheng Liu, Wangchunshu Zhou
cs.AI
Abstract
I Deep Research Agent (DRA) mirano a produrre automaticamente report di livello analitico attraverso un processo iterativo di recupero e sintesi delle informazioni. Tuttavia, la maggior parte dei DRA esistenti è stata validata su benchmark di domanda-risposta, mentre la ricerca sulla generazione di report completi rimane trascurata. Peggio ancora, gli attuali benchmark per la sintesi di report soffrono di complessità del compito e metriche soggettive, il che non riflette le esigenze degli utenti e limita l'utilità pratica dei report generati. Per colmare queste lacune, presentiamo Fine-grained DEepResearch bench (FINDER), un benchmark potenziato costituito da 100 task di ricerca curati da esseri umani con 419 elementi di checklist strutturati che standardizzano la struttura del report, la profondità analitica e il fondamento fattuale. Sulla base di circa 1.000 report prodotti da DRA mainstream, proponiamo inoltre Deep rEsearch Failure Taxonomy (DEFT), la prima tassonomia dei fallimenti per gli agenti di deep research. DEFT contiene 14 modalità di fallimento granulari relative a ragionamento, recupero e generazione, ed è costruita sulla grounded theory con co-annotazione umana-LLM e validazione dell'affidabilità inter-annotatore. I nostri risultati sperimentali rivelano che gli attuali DRA non hanno difficoltà nella comprensione del compito, ma nell'integrazione delle evidenze, nella verifica e nella pianificazione resiliente al ragionamento.
English
Deep Research Agents (DRAs) aim to automatically produce analyst-level reports through iterative information retrieval and synthesis. However, most existing DRAs were validated on question-answering benchmarks, while research on generating comprehensive reports remains overlooked. Worse, current benchmarks for report synthesis suffer from task complexity and subjective metrics -- this fails to reflect user demands and limits the practical utility of generated reports. To address these gaps, we present Fine-grained DEepResearch bench (FINDER), an enhanced benchmark consisting of 100 human-curated research tasks with 419 structured checklist items that standardize report structure, analytical depth, and factual grounding. Based on approximately 1,000 reports produced by mainstream DRAs, we further propose Deep rEsearch Failure Taxonomy (DEFT), the first failure taxonomy for deep research agents. DEFT contains 14 fine-grained failure modes across reasoning, retrieval, and generation, and is built upon grounded theory with human-LLM co-annotating and inter-annotator reliability validation. Our experimental findings reveal that current DRAs struggle not with task comprehension but with evidence integration, verification, and reasoning-resilient planning.