ChatPaper.aiChatPaper

Een Strenge Benchmark met Multidimensionale Evaluatie voor Diepgaande Onderzoeksagenten: Van Antwoorden naar Rapporten

A Rigorous Benchmark with Multidimensional Evaluation for Deep Research Agents: From Answers to Reports

October 2, 2025
Auteurs: Yang Yao, Yixu Wang, Yuxuan Zhang, Yi Lu, Tianle Gu, Lingyu Li, Dingyi Zhao, Keming Wu, Haozhe Wang, Ping Nie, Yan Teng, Yingchun Wang
cs.AI

Samenvatting

Kunstmatige intelligentie ondergaat een paradigmaverschuiving van gesloten taalmodelen naar onderling verbonden agentsystemen die in staat zijn tot externe waarneming en informatie-integratie. Als representatieve belichaming tonen Deep Research Agents (DRA's) systematisch de capaciteiten voor taakdecompositie, kruisbronnenretrieval, meerfasenredenering en gestructureerde output, wat de prestaties aanzienlijk verbetert bij complexe en open-ended taken. Bestaande benchmarks blijven echter tekortschieten in evaluatiedimensies, responsformattering en scoringsmechanismen, wat hun vermogen beperkt om dergelijke systemen effectief te beoordelen. Dit artikel introduceert een rigoureuze benchmark en een multidimensionaal evaluatiekader, afgestemd op DRA's en rapportstijlresponsen. De benchmark omvat 214 uitdagende, door experts samengestelde vragen, verdeeld over 10 brede thematische domeinen, elk vergezeld van handmatig geconstrueerde referentiebundels om samengestelde evaluatie te ondersteunen. Het kader maakt een uitgebreide evaluatie mogelijk van langere rapporten gegenereerd door DRA's, waarbij geïntegreerde scoringsmetrieken worden opgenomen voor semantische kwaliteit, thematische focus en betrouwbaarheid van de retrieval. Uitgebreide experimenten bevestigen de superieure prestaties van mainstream DRA's ten opzichte van webzoektool-augmented redeneermodellen, maar onthullen ook aanzienlijke ruimte voor verdere verbetering. Deze studie biedt een robuuste basis voor capaciteitsbeoordeling, architectonische verfijning en paradigmavooruitgang in DRA-systemen.
English
Artificial intelligence is undergoing the paradigm shift from closed language models to interconnected agent systems capable of external perception and information integration. As a representative embodiment, Deep Research Agents (DRAs) systematically exhibit the capabilities for task decomposition, cross-source retrieval, multi-stage reasoning, and structured output, which markedly enhance performance on complex and open-ended tasks. However, existing benchmarks remain deficient in evaluation dimensions, response formatting, and scoring mechanisms, limiting their capacity to assess such systems effectively. This paper introduces a rigorous benchmark and a multidimensional evaluation framework tailored to DRAs and report-style responses. The benchmark comprises 214 expert-curated challenging queries distributed across 10 broad thematic domains, each accompanied by manually constructed reference bundles to support composite evaluation. The framework enables comprehensive evaluation of long-form reports generated by DRAs, incorporating integrated scoring metrics for semantic quality, topical focus, and retrieval trustworthiness. Extensive experimentation confirms the superior performance of mainstream DRAs over web-search-tool-augmented reasoning models, yet reveals considerable scope for further improvement. This study provides a robust foundation for capability assessment, architectural refinement, and paradigm advancement in DRA systems.
PDF182October 3, 2025