A que distância estamos de agentes de pesquisa profunda genuinamente úteis?

Resumo

Os Agentes de Pesquisa Profunda (DRAs) visam produzir automaticamente relatórios de nível analítico por meio de recuperação e síntese iterativa de informações. No entanto, a maioria dos DRAs existentes foi validada em benchmarks de perguntas e respostas, enquanto a pesquisa sobre a geração de relatórios abrangentes permanece negligenciada. Pior ainda, os benchmarks atuais para síntese de relatórios sofrem com a complexidade da tarefa e métricas subjetivas – isso não reflete as demandas dos usuários e limita a utilidade prática dos relatórios gerados. Para abordar essas lacunas, apresentamos o *Fine-grained DEepResearch bench* (FINDER), um benchmark aprimorado composto por 100 tarefas de pesquisa curadas por humanos, com 419 itens de lista de verificação estruturados que padronizam a estrutura do relatório, a profundidade analítica e o embasamento factual. Com base em aproximadamente 1.000 relatórios produzidos por DRAs predominantes, propomos ainda a *Deep rEsearch Failure Taxonomy* (DEFT), a primeira taxonomia de falhas para agentes de pesquisa profunda. A DEFT contém 14 modos de falha granulares abrangendo raciocínio, recuperação e geração, e é construída sobre a teoria fundamentada com coanotação humano-LLM e validação de confiabilidade interanotadores. Nossas descobertas experimentais revelam que os DRAs atuais têm dificuldades não com a compreensão da tarefa, mas com a integração de evidências, verificação e planejamento resiliente ao raciocínio.

English

Deep Research Agents (DRAs) aim to automatically produce analyst-level reports through iterative information retrieval and synthesis. However, most existing DRAs were validated on question-answering benchmarks, while research on generating comprehensive reports remains overlooked. Worse, current benchmarks for report synthesis suffer from task complexity and subjective metrics -- this fails to reflect user demands and limits the practical utility of generated reports. To address these gaps, we present Fine-grained DEepResearch bench (FINDER), an enhanced benchmark consisting of 100 human-curated research tasks with 419 structured checklist items that standardize report structure, analytical depth, and factual grounding. Based on approximately 1,000 reports produced by mainstream DRAs, we further propose Deep rEsearch Failure Taxonomy (DEFT), the first failure taxonomy for deep research agents. DEFT contains 14 fine-grained failure modes across reasoning, retrieval, and generation, and is built upon grounded theory with human-LLM co-annotating and inter-annotator reliability validation. Our experimental findings reveal that current DRAs struggle not with task comprehension but with evidence integration, verification, and reasoning-resilient planning.

A que distância estamos de agentes de pesquisa profunda genuinamente úteis?

How Far Are We from Genuinely Useful Deep Research Agents?

Resumo

Support