DeepResearch Bench: Un Benchmark Completo per Agenti di Ricerca Profonda
DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents
June 13, 2025
Autori: Mingxuan Du, Benfeng Xu, Chiwei Zhu, Xiaorui Wang, Zhendong Mao
cs.AI
Abstract
Gli Agenti di Ricerca Profonda (Deep Research Agents, DRA) rappresentano una categoria di spicco tra gli agenti basati su modelli linguistici di grandi dimensioni (LLM). Orchestrando in modo autonomo esplorazioni web multi-step, recupero mirato e sintesi di ordine superiore, trasformano vaste quantità di informazioni online in report di livello analitico, ricchi di citazioni, comprimendo ore di ricerca manuale in pochi minuti. Tuttavia, manca ancora un benchmark completo per valutare sistematicamente le capacità di questi agenti. Per colmare questa lacuna, presentiamo DeepResearch Bench, un benchmark composto da 100 task di ricerca di livello PhD, ciascuno meticolosamente progettato da esperti di dominio in 22 campi distinti. La valutazione dei DRA è intrinsecamente complessa e laboriosa. Proponiamo quindi due metodologie innovative che raggiungono un forte allineamento con il giudizio umano. La prima è un metodo basato su riferimenti con criteri adattivi per valutare la qualità dei report di ricerca generati. L'altro framework è introdotto per valutare le capacità di recupero e raccolta delle informazioni del DRA, analizzando il conteggio effettivo delle citazioni e l'accuratezza complessiva delle citazioni. Abbiamo reso open-source DeepResearch Bench e i componenti chiave di questi framework all'indirizzo https://github.com/Ayanami0730/deep_research_bench per accelerare lo sviluppo di agenti pratici basati su LLM.
English
Deep Research Agents are a prominent category of LLM-based agents. By
autonomously orchestrating multistep web exploration, targeted retrieval, and
higher-order synthesis, they transform vast amounts of online information into
analyst-grade, citation-rich reports--compressing hours of manual desk research
into minutes. However, a comprehensive benchmark for systematically evaluating
the capabilities of these agents remains absent. To bridge this gap, we present
DeepResearch Bench, a benchmark consisting of 100 PhD-level research tasks,
each meticulously crafted by domain experts across 22 distinct fields.
Evaluating DRAs is inherently complex and labor-intensive. We therefore propose
two novel methodologies that achieve strong alignment with human judgment. The
first is a reference-based method with adaptive criteria to assess the quality
of generated research reports. The other framework is introduced to evaluate
DRA's information retrieval and collection capabilities by assessing its
effective citation count and overall citation accuracy. We have open-sourced
DeepResearch Bench and key components of these frameworks at
https://github.com/Ayanami0730/deep_research_bench to accelerate the
development of practical LLM-based agents.