DeepResearchEval: Un Framework Automatico per la Costruzione di Task di Ricerca Approfondita e la Valutazione Agente-Oriented

Abstract

I sistemi di ricerca approfondita sono ampiamente utilizzati per ricerche web multi-step, analisi e sintesi cross-fonte, ma la loro valutazione rimane complessa. I benchmark esistenti richiedono spesso una costruzione di task ad alta intensità di annotazione, si basano su dimensioni di valutazione statiche o non riescono a verificare in modo affidabile i fatti quando le citazioni sono assenti. Per colmare queste lacune, introduciamo DeepResearchEval, un framework automatizzato per la costruzione di task di ricerca approfondita e la valutazione agentica. Per la costruzione dei task, proponiamo una pipeline guidata da personaggi che genera compiti di ricerca realistici e complessi ancorati a profili utente diversificati, applicando un filtro a due stadi (Qualifica del Task e Necessità di Ricerca) per conservare solo i task che richiedono integrazione di evidenze multi-sorgente e recupero esterno. Per la valutazione, proponiamo una pipeline agentica con due componenti: una Valutazione Qualitativa Point-wise Adattiva che deriva dinamicamente dimensioni, criteri e pesi di valutazione specifici per ogni task in base al compito generato, e un Controllo Attivo dei Fatti che estrae e verifica autonomamente le affermazioni del report tramite ricerca web, anche in assenza di citazioni.

English

Deep research systems are widely used for multi-step web research, analysis, and cross-source synthesis, yet their evaluation remains challenging. Existing benchmarks often require annotation-intensive task construction, rely on static evaluation dimensions, or fail to reliably verify facts when citations are missing. To bridge these gaps, we introduce DeepResearchEval, an automated framework for deep research task construction and agentic evaluation. For task construction, we propose a persona-driven pipeline generating realistic, complex research tasks anchored in diverse user profiles, applying a two-stage filter Task Qualification and Search Necessity to retain only tasks requiring multi-source evidence integration and external retrieval. For evaluation, we propose an agentic pipeline with two components: an Adaptive Point-wise Quality Evaluation that dynamically derives task-specific evaluation dimensions, criteria, and weights conditioned on each generated task, and an Active Fact-Checking that autonomously extracts and verifies report statements via web search, even when citations are missing.

DeepResearchEval: Un Framework Automatico per la Costruzione di Task di Ricerca Approfondita e la Valutazione Agente-Oriented

DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation

Abstract

Support