ChatPaper.aiChatPaper

Hoe Ver Zijn We verwijderd van Echt Nuttige Diepgaande Onderzoeksassistenten?

How Far Are We from Genuinely Useful Deep Research Agents?

December 1, 2025
Auteurs: Dingling Zhang, He Zhu, Jincheng Ren, Kangqi Song, Xinran Zhou, Boyu Feng, Shudong Liu, Jiabin Luo, Weihao Xie, Zhaohui Wang, Tianrui Qin, King Zhu, Yuqing Wang, Qianben Chen, Yuchen Eleanor Jiang, Wei Wang, Jiaheng Liu, Wangchunshu Zhou
cs.AI

Samenvatting

Deep Research Agents (DRA's) hebben als doel om automatisch analistenrapporten op niveau te produceren door middel van iteratieve informatieverzameling en -synthese. De meeste bestaande DRA's werden echter gevalideerd op vraag-antwoordbenchmarks, terwijl onderzoek naar het genereren van uitgebreide rapporten onderbelicht blijft. Ergerniswekkend genoeg kampen huidige benchmarks voor rapportsynthese met taakcomplexiteit en subjectieve metrieken – dit weerspiegelt niet de gebruikerseisen en beperkt de praktische bruikbaarheid van gegenereerde rapporten. Om deze lacunes aan te pakken, presenteren wij Fine-grained DEepResearch bench (FINDER), een verbeterde benchmark bestaande uit 100 door mensen samengestelde onderzoektaken met 419 gestructureerde checklistitems die de rapportstructuur, analytische diepgang en feitelijke onderbouwing standaardiseren. Op basis van ongeveer 1.000 rapporten geproduceerd door mainstream DRA's, stellen wij verder de Deep rEsearch Failure Taxonomy (DEFT) voor, de eerste foutentaxonomie voor deep research agents. DEFT bevat 14 fijnmazige faalmodi binnen redeneren, retrieval en generatie, en is gebaseerd op grounded theory met co-annotatie door mens-LLM en validatie van interbeoordelaarsbetrouwbaarheid. Onze experimentele bevindingen tonen aan dat huidige DRA's niet worstelen met taakbegrip, maar wel met evidence-integratie, verificatie en reasoning-resilient planning.
English
Deep Research Agents (DRAs) aim to automatically produce analyst-level reports through iterative information retrieval and synthesis. However, most existing DRAs were validated on question-answering benchmarks, while research on generating comprehensive reports remains overlooked. Worse, current benchmarks for report synthesis suffer from task complexity and subjective metrics -- this fails to reflect user demands and limits the practical utility of generated reports. To address these gaps, we present Fine-grained DEepResearch bench (FINDER), an enhanced benchmark consisting of 100 human-curated research tasks with 419 structured checklist items that standardize report structure, analytical depth, and factual grounding. Based on approximately 1,000 reports produced by mainstream DRAs, we further propose Deep rEsearch Failure Taxonomy (DEFT), the first failure taxonomy for deep research agents. DEFT contains 14 fine-grained failure modes across reasoning, retrieval, and generation, and is built upon grounded theory with human-LLM co-annotating and inter-annotator reliability validation. Our experimental findings reveal that current DRAs struggle not with task comprehension but with evidence integration, verification, and reasoning-resilient planning.
PDF441December 3, 2025