DeepResearch Bench: Een Uitgebreide Benchmark voor Diepgaande Onderzoeksagentschappen
DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents
June 13, 2025
Auteurs: Mingxuan Du, Benfeng Xu, Chiwei Zhu, Xiaorui Wang, Zhendong Mao
cs.AI
Samenvatting
Deep Research Agents vormen een prominente categorie van LLM-gebaseerde agents. Door autonoom multistap webverkenning, gerichte informatie-extractie en hogere-orde synthese te orkestreren, transformeren ze enorme hoeveelheden online informatie in analistwaardige, citatierijke rapporten—waardoor uren handmatig bureauonderzoek worden gecomprimeerd tot minuten. Een uitgebreide benchmark voor het systematisch evalueren van de capaciteiten van deze agents ontbreekt echter nog steeds. Om deze kloof te overbruggen, presenteren we DeepResearch Bench, een benchmark bestaande uit 100 PhD-niveau onderzoektaken, elk zorgvuldig ontworpen door domeinexperts uit 22 verschillende vakgebieden.
Het evalueren van DRAs is inherent complex en arbeidsintensief. Daarom stellen we twee nieuwe methodologieën voor die een sterke afstemming met menselijk oordeel bereiken. De eerste is een referentiegebaseerde methode met adaptieve criteria om de kwaliteit van gegenereerde onderzoeksrapporten te beoordelen. Het andere framework wordt geïntroduceerd om de informatie-extractie- en verzamelcapaciteiten van DRA's te evalueren door het effectieve citatieaantal en de algehele citatienauwkeurigheid te beoordelen. We hebben DeepResearch Bench en belangrijke componenten van deze frameworks open-source gemaakt op https://github.com/Ayanami0730/deep_research_bench om de ontwikkeling van praktische LLM-gebaseerde agents te versnellen.
English
Deep Research Agents are a prominent category of LLM-based agents. By
autonomously orchestrating multistep web exploration, targeted retrieval, and
higher-order synthesis, they transform vast amounts of online information into
analyst-grade, citation-rich reports--compressing hours of manual desk research
into minutes. However, a comprehensive benchmark for systematically evaluating
the capabilities of these agents remains absent. To bridge this gap, we present
DeepResearch Bench, a benchmark consisting of 100 PhD-level research tasks,
each meticulously crafted by domain experts across 22 distinct fields.
Evaluating DRAs is inherently complex and labor-intensive. We therefore propose
two novel methodologies that achieve strong alignment with human judgment. The
first is a reference-based method with adaptive criteria to assess the quality
of generated research reports. The other framework is introduced to evaluate
DRA's information retrieval and collection capabilities by assessing its
effective citation count and overall citation accuracy. We have open-sourced
DeepResearch Bench and key components of these frameworks at
https://github.com/Ayanami0730/deep_research_bench to accelerate the
development of practical LLM-based agents.