Ein strenger Benchmark mit multidimensionaler Bewertung für tiefgehende Forschungsagenten: Von Antworten zu Berichten
A Rigorous Benchmark with Multidimensional Evaluation for Deep Research Agents: From Answers to Reports
October 2, 2025
papers.authors: Yang Yao, Yixu Wang, Yuxuan Zhang, Yi Lu, Tianle Gu, Lingyu Li, Dingyi Zhao, Keming Wu, Haozhe Wang, Ping Nie, Yan Teng, Yingchun Wang
cs.AI
papers.abstract
Künstliche Intelligenz durchläuft einen Paradigmenwechsel von geschlossenen Sprachmodellen hin zu vernetzten Agentensystemen, die in der Lage sind, externe Wahrnehmungen und Informationsintegration zu realisieren. Als repräsentative Verkörperung zeigen Deep Research Agents (DRAs) systematisch Fähigkeiten zur Aufgabenzerlegung, quellenübergreifenden Recherche, mehrstufigen Argumentation und strukturierten Ausgabe, was die Leistung bei komplexen und offenen Aufgaben deutlich verbessert. Bestehende Benchmarks sind jedoch in Bezug auf Bewertungsdimensionen, Antwortformatierung und Bewertungsmechanismen unzureichend, was ihre Fähigkeit zur effektiven Bewertung solcher Systeme einschränkt. Dieses Papier stellt einen rigorosen Benchmark und ein multidimensionales Bewertungsrahmenwerk vor, das speziell auf DRAs und berichtsartige Antworten zugeschnitten ist. Der Benchmark umfasst 214 von Experten kuratierte anspruchsvolle Anfragen, die über 10 breite thematische Domänen verteilt sind, wobei jede Anfrage von manuell erstellten Referenzbündeln begleitet wird, um eine zusammengesetzte Bewertung zu unterstützen. Das Rahmenwerk ermöglicht eine umfassende Bewertung von langen Berichten, die von DRAs generiert werden, und integriert Bewertungsmetriken für semantische Qualität, thematische Fokussierung und Vertrauenswürdigkeit der Recherche. Umfangreiche Experimente bestätigen die überlegene Leistung von Mainstream-DRAs gegenüber mit Web-Such-Tools erweiterten Argumentationsmodellen, zeigen jedoch auch erheblichen Spielraum für weitere Verbesserungen auf. Diese Studie bietet eine robuste Grundlage für die Fähigkeitsbewertung, architektonische Verfeinerung und Paradigmenfortschritt in DRA-Systemen.
English
Artificial intelligence is undergoing the paradigm shift from closed language
models to interconnected agent systems capable of external perception and
information integration. As a representative embodiment, Deep Research Agents
(DRAs) systematically exhibit the capabilities for task decomposition,
cross-source retrieval, multi-stage reasoning, and structured output, which
markedly enhance performance on complex and open-ended tasks. However, existing
benchmarks remain deficient in evaluation dimensions, response formatting, and
scoring mechanisms, limiting their capacity to assess such systems effectively.
This paper introduces a rigorous benchmark and a multidimensional evaluation
framework tailored to DRAs and report-style responses. The benchmark comprises
214 expert-curated challenging queries distributed across 10 broad thematic
domains, each accompanied by manually constructed reference bundles to support
composite evaluation. The framework enables comprehensive evaluation of
long-form reports generated by DRAs, incorporating integrated scoring metrics
for semantic quality, topical focus, and retrieval trustworthiness. Extensive
experimentation confirms the superior performance of mainstream DRAs over
web-search-tool-augmented reasoning models, yet reveals considerable scope for
further improvement. This study provides a robust foundation for capability
assessment, architectural refinement, and paradigm advancement in DRA systems.