ChatPaper.aiChatPaper

DeepResearch Bench : Un benchmark complet pour les agents de recherche approfondie

DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents

June 13, 2025
Auteurs: Mingxuan Du, Benfeng Xu, Chiwei Zhu, Xiaorui Wang, Zhendong Mao
cs.AI

Résumé

Les Agents de Recherche Profonde (Deep Research Agents, DRA) constituent une catégorie importante d'agents basés sur des modèles de langage (LLM). En orchestrant de manière autonome une exploration web multi-étapes, une récupération ciblée et une synthèse d'ordre supérieur, ils transforment d'immenses quantités d'informations en ligne en rapports de qualité analytique, riches en citations, compressant ainsi des heures de recherche manuelle en quelques minutes. Cependant, un benchmark complet pour évaluer systématiquement les capacités de ces agents fait encore défaut. Pour combler cette lacune, nous présentons DeepResearch Bench, un benchmark composé de 100 tâches de recherche de niveau doctorat, chacune soigneusement élaborée par des experts de domaines répartis dans 22 disciplines distinctes. L'évaluation des DRA est intrinsèquement complexe et laborieuse. Nous proposons donc deux nouvelles méthodologies qui atteignent un fort alignement avec le jugement humain. La première est une méthode basée sur des références avec des critères adaptatifs pour évaluer la qualité des rapports de recherche générés. L'autre cadre est introduit pour évaluer les capacités de récupération et de collecte d'informations des DRA en mesurant leur nombre de citations effectives et leur précision globale en matière de citations. Nous avons rendu open-source DeepResearch Bench ainsi que les composants clés de ces cadres sur https://github.com/Ayanami0730/deep_research_bench afin d'accélérer le développement d'agents pratiques basés sur des LLM.
English
Deep Research Agents are a prominent category of LLM-based agents. By autonomously orchestrating multistep web exploration, targeted retrieval, and higher-order synthesis, they transform vast amounts of online information into analyst-grade, citation-rich reports--compressing hours of manual desk research into minutes. However, a comprehensive benchmark for systematically evaluating the capabilities of these agents remains absent. To bridge this gap, we present DeepResearch Bench, a benchmark consisting of 100 PhD-level research tasks, each meticulously crafted by domain experts across 22 distinct fields. Evaluating DRAs is inherently complex and labor-intensive. We therefore propose two novel methodologies that achieve strong alignment with human judgment. The first is a reference-based method with adaptive criteria to assess the quality of generated research reports. The other framework is introduced to evaluate DRA's information retrieval and collection capabilities by assessing its effective citation count and overall citation accuracy. We have open-sourced DeepResearch Bench and key components of these frameworks at https://github.com/Ayanami0730/deep_research_bench to accelerate the development of practical LLM-based agents.
PDF483June 17, 2025