DeepResearch begrijpen via rapporten
Understanding DeepResearch via Reports
October 9, 2025
Auteurs: Tianyu Fan, Xinyao Niu, Yuxiang Zheng, Fengji Zhang, Chengen Huang, Bei Chen, Junyang Lin, Chao Huang
cs.AI
Samenvatting
DeepResearch-agents vertegenwoordigen een transformerend AI-paradigma, waarbij ze expertniveau onderzoek uitvoeren door middel van geavanceerd redeneren en integratie van meerdere tools. Het evalueren van deze systemen blijft echter een grote uitdaging vanwege open-einde onderzoeksscenario's en bestaande benchmarks die zich richten op geïsoleerde capaciteiten in plaats van holistische prestaties. In tegenstelling tot traditionele LLM-taken moeten DeepResearch-systemen diverse bronnen synthetiseren, inzichten genereren en samenhangende bevindingen presenteren, wat capaciteiten zijn die zich verzetten tegen eenvoudige verificatie. Om dit gat te dichten, introduceren we DeepResearch-ReportEval, een uitgebreid framework ontworpen om DeepResearch-systemen te beoordelen aan de hand van hun meest representatieve output: onderzoeksrapporten. Onze aanpak meet systematisch drie dimensies: kwaliteit, redundantie en feitelijkheid, met behulp van een innovatieve LLM-as-a-Judge methodologie die sterke overeenstemming met experts bereikt. We dragen bij met een gestandaardiseerde benchmark van 100 zorgvuldig samengestelde queries die 12 real-world categorieën omvatten, waardoor een systematische vergelijking van capaciteiten mogelijk wordt. Onze evaluatie van vier toonaangevende commerciële systemen onthult verschillende ontwerpfilosofieën en prestatieafwegingen, wat fundamentele inzichten biedt terwijl DeepResearch evolueert van informatie-assistenten naar intelligente onderzoekspartners. Broncode en data zijn beschikbaar op: https://github.com/HKUDS/DeepResearch-Eval.
English
DeepResearch agents represent a transformative AI paradigm, conducting
expert-level research through sophisticated reasoning and multi-tool
integration. However, evaluating these systems remains critically challenging
due to open-ended research scenarios and existing benchmarks that focus on
isolated capabilities rather than holistic performance. Unlike traditional LLM
tasks, DeepResearch systems must synthesize diverse sources, generate insights,
and present coherent findings, which are capabilities that resist simple
verification. To address this gap, we introduce DeepResearch-ReportEval, a
comprehensive framework designed to assess DeepResearch systems through their
most representative outputs: research reports. Our approach systematically
measures three dimensions: quality, redundancy, and factuality, using an
innovative LLM-as-a-Judge methodology achieving strong expert concordance. We
contribute a standardized benchmark of 100 curated queries spanning 12
real-world categories, enabling systematic capability comparison. Our
evaluation of four leading commercial systems reveals distinct design
philosophies and performance trade-offs, establishing foundational insights as
DeepResearch evolves from information assistants toward intelligent research
partners. Source code and data are available at:
https://github.com/HKUDS/DeepResearch-Eval.