ChatPaper.aiChatPaper

Un Benchmark Rigoroso con Valutazione Multidimensionale per Agenti di Ricerca Profonda: Dalle Risposte ai Rapporti

A Rigorous Benchmark with Multidimensional Evaluation for Deep Research Agents: From Answers to Reports

October 2, 2025
Autori: Yang Yao, Yixu Wang, Yuxuan Zhang, Yi Lu, Tianle Gu, Lingyu Li, Dingyi Zhao, Keming Wu, Haozhe Wang, Ping Nie, Yan Teng, Yingchun Wang
cs.AI

Abstract

L'intelligenza artificiale sta attraversando un cambiamento di paradigma, passando da modelli linguistici chiusi a sistemi di agenti interconnessi capaci di percezione esterna e integrazione delle informazioni. Come rappresentazione emblematica, i Deep Research Agent (DRA) dimostrano sistematicamente capacità di scomposizione dei compiti, recupero incrociato da diverse fonti, ragionamento multi-stadio e output strutturato, migliorando significativamente le prestazioni su compiti complessi e aperti. Tuttavia, i benchmark esistenti rimangono carenti nelle dimensioni di valutazione, nella formattazione delle risposte e nei meccanismi di punteggio, limitando la loro capacità di valutare efficacemente tali sistemi. Questo articolo introduce un benchmark rigoroso e un framework di valutazione multidimensionale specificamente progettato per i DRA e le risposte in formato report. Il benchmark comprende 214 query complesse curate da esperti, distribuite in 10 ampi domini tematici, ciascuna accompagnata da bundle di riferimento costruiti manualmente per supportare una valutazione composita. Il framework consente una valutazione completa dei report di lunga durata generati dai DRA, incorporando metriche di punteggio integrate per la qualità semantica, il focus tematico e l'affidabilità del recupero. Esperimenti estensivi confermano la prestazione superiore dei DRA mainstream rispetto ai modelli di ragionamento potenziati da strumenti di ricerca web, ma rivelano un ampio margine di miglioramento. Questo studio fornisce una solida base per la valutazione delle capacità, il perfezionamento architetturale e l'avanzamento del paradigma nei sistemi DRA.
English
Artificial intelligence is undergoing the paradigm shift from closed language models to interconnected agent systems capable of external perception and information integration. As a representative embodiment, Deep Research Agents (DRAs) systematically exhibit the capabilities for task decomposition, cross-source retrieval, multi-stage reasoning, and structured output, which markedly enhance performance on complex and open-ended tasks. However, existing benchmarks remain deficient in evaluation dimensions, response formatting, and scoring mechanisms, limiting their capacity to assess such systems effectively. This paper introduces a rigorous benchmark and a multidimensional evaluation framework tailored to DRAs and report-style responses. The benchmark comprises 214 expert-curated challenging queries distributed across 10 broad thematic domains, each accompanied by manually constructed reference bundles to support composite evaluation. The framework enables comprehensive evaluation of long-form reports generated by DRAs, incorporating integrated scoring metrics for semantic quality, topical focus, and retrieval trustworthiness. Extensive experimentation confirms the superior performance of mainstream DRAs over web-search-tool-augmented reasoning models, yet reveals considerable scope for further improvement. This study provides a robust foundation for capability assessment, architectural refinement, and paradigm advancement in DRA systems.
PDF182October 3, 2025