Comprendre DeepResearch à travers les rapports
Understanding DeepResearch via Reports
October 9, 2025
papers.authors: Tianyu Fan, Xinyao Niu, Yuxiang Zheng, Fengji Zhang, Chengen Huang, Bei Chen, Junyang Lin, Chao Huang
cs.AI
papers.abstract
Les agents DeepResearch incarnent un paradigme transformateur de l'IA, menant des recherches de niveau expert grâce à un raisonnement sophistiqué et une intégration multi-outils. Cependant, l'évaluation de ces systèmes reste un défi critique en raison de scénarios de recherche ouverts et de benchmarks existants qui se concentrent sur des capacités isolées plutôt que sur la performance globale. Contrairement aux tâches traditionnelles des LLM, les systèmes DeepResearch doivent synthétiser des sources diverses, générer des insights et présenter des conclusions cohérentes, des capacités qui résistent à une vérification simple. Pour combler cette lacune, nous introduisons DeepResearch-ReportEval, un cadre complet conçu pour évaluer les systèmes DeepResearch à travers leurs productions les plus représentatives : les rapports de recherche. Notre approche mesure systématiquement trois dimensions : la qualité, la redondance et la factualité, en utilisant une méthodologie innovante de LLM-comme-Juge atteignant une forte concordance avec les experts. Nous contribuons un benchmark standardisé de 100 requêtes soigneusement sélectionnées couvrant 12 catégories du monde réel, permettant une comparaison systématique des capacités. Notre évaluation de quatre systèmes commerciaux leaders révèle des philosophies de conception distinctes et des compromis de performance, établissant des insights fondamentaux alors que DeepResearch évolue d'assistants d'information vers des partenaires de recherche intelligents. Le code source et les données sont disponibles à l'adresse : https://github.com/HKUDS/DeepResearch-Eval.
English
DeepResearch agents represent a transformative AI paradigm, conducting
expert-level research through sophisticated reasoning and multi-tool
integration. However, evaluating these systems remains critically challenging
due to open-ended research scenarios and existing benchmarks that focus on
isolated capabilities rather than holistic performance. Unlike traditional LLM
tasks, DeepResearch systems must synthesize diverse sources, generate insights,
and present coherent findings, which are capabilities that resist simple
verification. To address this gap, we introduce DeepResearch-ReportEval, a
comprehensive framework designed to assess DeepResearch systems through their
most representative outputs: research reports. Our approach systematically
measures three dimensions: quality, redundancy, and factuality, using an
innovative LLM-as-a-Judge methodology achieving strong expert concordance. We
contribute a standardized benchmark of 100 curated queries spanning 12
real-world categories, enabling systematic capability comparison. Our
evaluation of four leading commercial systems reveals distinct design
philosophies and performance trade-offs, establishing foundational insights as
DeepResearch evolves from information assistants toward intelligent research
partners. Source code and data are available at:
https://github.com/HKUDS/DeepResearch-Eval.