DeepResearchEval: Uma Estrutura Automatizada para a Construção de Tarefas de Pesquisa Aprofundada e Avaliação Agência

Resumo

Os sistemas de pesquisa profunda são amplamente utilizados para pesquisa web multi-etapas, análise e síntese entre fontes, porém sua avaliação permanece desafiadora. Os benchmarks existentes frequentemente exigem construção de tarefas com anotação intensiva, dependem de dimensões de avaliação estáticas ou falham em verificar fatos de forma confiável quando as citações estão ausentes. Para preencher essas lacunas, apresentamos o DeepResearchEval, um framework automatizado para construção de tarefas de pesquisa profunda e avaliação agentiva. Para construção de tarefas, propomos um pipeline orientado por persona que gera tarefas de pesquisa realistas e complexas ancoradas em diversos perfis de usuário, aplicando um filtro de dois estágios (Qualificação da Tarefa e Necessidade de Busca) para reter apenas tarefas que exigem integração de evidências multi-fonte e recuperação externa. Para avaliação, propomos um pipeline agentivo com dois componentes: uma Avaliação de Qualidade Ponto a Ponto Adaptativa que deriva dinamicamente dimensões, critérios e pesos de avaliação específicos para cada tarefa, condicionados a cada tarefa gerada, e uma Verificação de Fatos Ativa que extrai e verifica declarações do relatório autonomamente por meio de busca web, mesmo quando as citações estão ausentes.

English

Deep research systems are widely used for multi-step web research, analysis, and cross-source synthesis, yet their evaluation remains challenging. Existing benchmarks often require annotation-intensive task construction, rely on static evaluation dimensions, or fail to reliably verify facts when citations are missing. To bridge these gaps, we introduce DeepResearchEval, an automated framework for deep research task construction and agentic evaluation. For task construction, we propose a persona-driven pipeline generating realistic, complex research tasks anchored in diverse user profiles, applying a two-stage filter Task Qualification and Search Necessity to retain only tasks requiring multi-source evidence integration and external retrieval. For evaluation, we propose an agentic pipeline with two components: an Adaptive Point-wise Quality Evaluation that dynamically derives task-specific evaluation dimensions, criteria, and weights conditioned on each generated task, and an Active Fact-Checking that autonomously extracts and verifies report statements via web search, even when citations are missing.