DeepResearch Bench : Un benchmark complet pour les agents de recherche approfondie
DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents
June 13, 2025
Auteurs: Mingxuan Du, Benfeng Xu, Chiwei Zhu, Xiaorui Wang, Zhendong Mao
cs.AI
Résumé
Les Agents de Recherche Profonde (Deep Research Agents, DRA) constituent une catégorie importante d'agents basés sur des modèles de langage (LLM). En orchestrant de manière autonome une exploration web multi-étapes, une récupération ciblée et une synthèse d'ordre supérieur, ils transforment d'immenses quantités d'informations en ligne en rapports de qualité analytique, riches en citations, compressant ainsi des heures de recherche manuelle en quelques minutes. Cependant, un benchmark complet pour évaluer systématiquement les capacités de ces agents fait encore défaut. Pour combler cette lacune, nous présentons DeepResearch Bench, un benchmark composé de 100 tâches de recherche de niveau doctorat, chacune soigneusement élaborée par des experts de domaines répartis dans 22 disciplines distinctes.
L'évaluation des DRA est intrinsèquement complexe et laborieuse. Nous proposons donc deux nouvelles méthodologies qui atteignent un fort alignement avec le jugement humain. La première est une méthode basée sur des références avec des critères adaptatifs pour évaluer la qualité des rapports de recherche générés. L'autre cadre est introduit pour évaluer les capacités de récupération et de collecte d'informations des DRA en mesurant leur nombre de citations effectives et leur précision globale en matière de citations. Nous avons rendu open-source DeepResearch Bench ainsi que les composants clés de ces cadres sur https://github.com/Ayanami0730/deep_research_bench afin d'accélérer le développement d'agents pratiques basés sur des LLM.
English
Deep Research Agents are a prominent category of LLM-based agents. By
autonomously orchestrating multistep web exploration, targeted retrieval, and
higher-order synthesis, they transform vast amounts of online information into
analyst-grade, citation-rich reports--compressing hours of manual desk research
into minutes. However, a comprehensive benchmark for systematically evaluating
the capabilities of these agents remains absent. To bridge this gap, we present
DeepResearch Bench, a benchmark consisting of 100 PhD-level research tasks,
each meticulously crafted by domain experts across 22 distinct fields.
Evaluating DRAs is inherently complex and labor-intensive. We therefore propose
two novel methodologies that achieve strong alignment with human judgment. The
first is a reference-based method with adaptive criteria to assess the quality
of generated research reports. The other framework is introduced to evaluate
DRA's information retrieval and collection capabilities by assessing its
effective citation count and overall citation accuracy. We have open-sourced
DeepResearch Bench and key components of these frameworks at
https://github.com/Ayanami0730/deep_research_bench to accelerate the
development of practical LLM-based agents.