DeepResearch Bench: Een Uitgebreide Benchmark voor Diepgaande Onderzoeksagentschappen

Samenvatting

Deep Research Agents vormen een prominente categorie van LLM-gebaseerde agents. Door autonoom multistap webverkenning, gerichte informatie-extractie en hogere-orde synthese te orkestreren, transformeren ze enorme hoeveelheden online informatie in analistwaardige, citatierijke rapporten—waardoor uren handmatig bureauonderzoek worden gecomprimeerd tot minuten. Een uitgebreide benchmark voor het systematisch evalueren van de capaciteiten van deze agents ontbreekt echter nog steeds. Om deze kloof te overbruggen, presenteren we DeepResearch Bench, een benchmark bestaande uit 100 PhD-niveau onderzoektaken, elk zorgvuldig ontworpen door domeinexperts uit 22 verschillende vakgebieden. Het evalueren van DRAs is inherent complex en arbeidsintensief. Daarom stellen we twee nieuwe methodologieën voor die een sterke afstemming met menselijk oordeel bereiken. De eerste is een referentiegebaseerde methode met adaptieve criteria om de kwaliteit van gegenereerde onderzoeksrapporten te beoordelen. Het andere framework wordt geïntroduceerd om de informatie-extractie- en verzamelcapaciteiten van DRA's te evalueren door het effectieve citatieaantal en de algehele citatienauwkeurigheid te beoordelen. We hebben DeepResearch Bench en belangrijke componenten van deze frameworks open-source gemaakt op https://github.com/Ayanami0730/deep_research_bench om de ontwikkeling van praktische LLM-gebaseerde agents te versnellen.

English

Deep Research Agents are a prominent category of LLM-based agents. By autonomously orchestrating multistep web exploration, targeted retrieval, and higher-order synthesis, they transform vast amounts of online information into analyst-grade, citation-rich reports--compressing hours of manual desk research into minutes. However, a comprehensive benchmark for systematically evaluating the capabilities of these agents remains absent. To bridge this gap, we present DeepResearch Bench, a benchmark consisting of 100 PhD-level research tasks, each meticulously crafted by domain experts across 22 distinct fields. Evaluating DRAs is inherently complex and labor-intensive. We therefore propose two novel methodologies that achieve strong alignment with human judgment. The first is a reference-based method with adaptive criteria to assess the quality of generated research reports. The other framework is introduced to evaluate DRA's information retrieval and collection capabilities by assessing its effective citation count and overall citation accuracy. We have open-sourced DeepResearch Bench and key components of these frameworks at https://github.com/Ayanami0730/deep_research_bench to accelerate the development of practical LLM-based agents.

DeepResearch Bench: Een Uitgebreide Benchmark voor Diepgaande Onderzoeksagentschappen

DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents

Samenvatting

Support