Verständnis von DeepResearch durch Berichte
Understanding DeepResearch via Reports
October 9, 2025
papers.authors: Tianyu Fan, Xinyao Niu, Yuxiang Zheng, Fengji Zhang, Chengen Huang, Bei Chen, Junyang Lin, Chao Huang
cs.AI
papers.abstract
DeepResearch-Agenten verkörpern ein transformatives KI-Paradigma, das Expertenforschung durch ausgeklügeltes Denken und Multi-Tool-Integration durchführt. Die Bewertung dieser Systeme bleibt jedoch äußerst herausfordernd, da offene Forschungsszenarien und bestehende Benchmarks sich auf isolierte Fähigkeiten anstatt auf ganzheitliche Leistung konzentrieren. Im Gegensatz zu traditionellen LLM-Aufgaben müssen DeepResearch-Systeme diverse Quellen synthetisieren, Erkenntnisse generieren und kohärente Ergebnisse präsentieren – Fähigkeiten, die sich einer einfachen Überprüfung entziehen. Um diese Lücke zu schließen, führen wir DeepResearch-ReportEval ein, ein umfassendes Framework, das DeepResearch-Systeme anhand ihrer repräsentativsten Outputs bewertet: Forschungsberichte. Unser Ansatz misst systematisch drei Dimensionen: Qualität, Redundanz und Faktizität, wobei eine innovative LLM-as-a-Judge-Methodik eine starke Übereinstimmung mit Expertenurteilen erreicht. Wir stellen einen standardisierten Benchmark mit 100 kuratierten Anfragen aus 12 realen Kategorien bereit, der einen systematischen Fähigkeitsvergleich ermöglicht. Unsere Bewertung von vier führenden kommerziellen Systemen zeigt unterschiedliche Designphilosophien und Leistungskompromisse auf und liefert grundlegende Erkenntnisse, während sich DeepResearch von Informationsassistenten hin zu intelligenten Forschungspartnern entwickelt. Quellcode und Daten sind verfügbar unter: https://github.com/HKUDS/DeepResearch-Eval.
English
DeepResearch agents represent a transformative AI paradigm, conducting
expert-level research through sophisticated reasoning and multi-tool
integration. However, evaluating these systems remains critically challenging
due to open-ended research scenarios and existing benchmarks that focus on
isolated capabilities rather than holistic performance. Unlike traditional LLM
tasks, DeepResearch systems must synthesize diverse sources, generate insights,
and present coherent findings, which are capabilities that resist simple
verification. To address this gap, we introduce DeepResearch-ReportEval, a
comprehensive framework designed to assess DeepResearch systems through their
most representative outputs: research reports. Our approach systematically
measures three dimensions: quality, redundancy, and factuality, using an
innovative LLM-as-a-Judge methodology achieving strong expert concordance. We
contribute a standardized benchmark of 100 curated queries spanning 12
real-world categories, enabling systematic capability comparison. Our
evaluation of four leading commercial systems reveals distinct design
philosophies and performance trade-offs, establishing foundational insights as
DeepResearch evolves from information assistants toward intelligent research
partners. Source code and data are available at:
https://github.com/HKUDS/DeepResearch-Eval.