Un Benchmark Rigoureux avec une Évaluation Multidimensionnelle pour les Agents de Recherche Profonde : Des Réponses aux Rapports
A Rigorous Benchmark with Multidimensional Evaluation for Deep Research Agents: From Answers to Reports
October 2, 2025
papers.authors: Yang Yao, Yixu Wang, Yuxuan Zhang, Yi Lu, Tianle Gu, Lingyu Li, Dingyi Zhao, Keming Wu, Haozhe Wang, Ping Nie, Yan Teng, Yingchun Wang
cs.AI
papers.abstract
L'intelligence artificielle est en train de vivre un changement de paradigme, passant de modèles de langage fermés à des systèmes d'agents interconnectés capables de perception externe et d'intégration d'informations. En tant qu'incarnation représentative, les Agents de Recherche Profonde (Deep Research Agents, DRAs) démontrent systématiquement des capacités de décomposition de tâches, de recherche inter-sources, de raisonnement multi-étapes et de production de sorties structurées, ce qui améliore significativement les performances sur des tâches complexes et ouvertes. Cependant, les benchmarks existants restent déficients en termes de dimensions d'évaluation, de formatage des réponses et de mécanismes de notation, limitant leur capacité à évaluer efficacement de tels systèmes. Cet article présente un benchmark rigoureux et un cadre d'évaluation multidimensionnel adapté aux DRAs et aux réponses de type rapport. Le benchmark comprend 214 requêtes complexes, expertement sélectionnées et réparties sur 10 domaines thématiques larges, chacune accompagnée de références manuellement construites pour soutenir une évaluation composite. Le cadre permet une évaluation complète des rapports détaillés générés par les DRAs, intégrant des métriques de notation pour la qualité sémantique, la focalisation thématique et la fiabilité des informations récupérées. Des expérimentations approfondies confirment la performance supérieure des DRAs mainstream par rapport aux modèles de raisonnement augmentés par des outils de recherche web, tout en révélant un potentiel considérable d'amélioration. Cette étude fournit une base solide pour l'évaluation des capacités, l'affinement architectural et l'avancement du paradigme dans les systèmes DRA.
English
Artificial intelligence is undergoing the paradigm shift from closed language
models to interconnected agent systems capable of external perception and
information integration. As a representative embodiment, Deep Research Agents
(DRAs) systematically exhibit the capabilities for task decomposition,
cross-source retrieval, multi-stage reasoning, and structured output, which
markedly enhance performance on complex and open-ended tasks. However, existing
benchmarks remain deficient in evaluation dimensions, response formatting, and
scoring mechanisms, limiting their capacity to assess such systems effectively.
This paper introduces a rigorous benchmark and a multidimensional evaluation
framework tailored to DRAs and report-style responses. The benchmark comprises
214 expert-curated challenging queries distributed across 10 broad thematic
domains, each accompanied by manually constructed reference bundles to support
composite evaluation. The framework enables comprehensive evaluation of
long-form reports generated by DRAs, incorporating integrated scoring metrics
for semantic quality, topical focus, and retrieval trustworthiness. Extensive
experimentation confirms the superior performance of mainstream DRAs over
web-search-tool-augmented reasoning models, yet reveals considerable scope for
further improvement. This study provides a robust foundation for capability
assessment, architectural refinement, and paradigm advancement in DRA systems.