ChatPaper.aiChatPaper

DuMate-DeepResearch: Um Sistema Multiagente Auditável com Busca Recursiva e Raciocínio Baseado em Rubricas

DuMate-DeepResearch: An Auditable Multi-Agent System with Recursive Search and Rubric-Grounded Reasoning

June 5, 2026
Autores: Lingyong Yan, Can Xu, Yukun Zhao, Wenxuan Li, Qingyang Chen, Jiulong Wu, Wenli Song, Xiangnan Li, Weixian Shi, Yiqun Chen, Xuchen Ma, Yuchen Li, Jiashu Zhao, Shuaiqiang Wang, Jianmin Wu, Dawei Yin
cs.AI

Resumo

Deep Research (DR) emergiu como um novo paradigma agêntico para lidar com tarefas de pesquisa complexas e de escopo aberto, exigindo sistemas que possam iterativamente enquadrar problemas, obter evidências, verificar fontes e sintetizar relatórios extensos. Na prática, contudo, os sistemas atuais de DR são limitados por quatro restrições inter-relacionadas: planejamento de longo horizonte sobre um escopo subespecificado, o gargalo de decompor e agendar tais tarefas em um único agente, o risco de alucinação na síntese de longo formato e a auditabilidade limitada do processo. Este relatório técnico apresenta o DuMate-DeepResearch, uma estrutura multiagente de DR construída sobre o Qianfan Agent Foundry. A estrutura desacopla o Núcleo do Agente, que lida com compreensão, planejamento e agendamento de tarefas, de um Ecossistema de Ferramentas extensível para recuperação, obtenção de evidências e renderização de relatórios, tornando cada decisão intermediária e invocação de ferramenta explicitamente rastreável. Com base nessa infraestrutura, o DuMate-DeepResearch introduz três mecanismos: (i) uma estratégia de planejamento dinâmico baseada em grafos que expande o roteiro de pesquisa do grosso ao fino e o revisa continuamente por meio de reflexão, replanejamento, retrocesso e ramificação paralela; (ii) um design de execução recursiva de dois níveis que delega cada subtarefa de busca complexa a um Agente de Busca interno que executa seu próprio ciclo de planejamento, isolando a recuperação ruidosa e estabilizando a execução de longo horizonte; (iii) um mecanismo de otimização em tempo de teste baseado em rubricas que gera dinamicamente critérios de qualidade específicos para a tarefa e os utiliza como andaimes de raciocínio ao vivo para síntese fundamentada em evidências e parada adaptativa. Em dois benchmarks de pesquisa profunda, o DuMate-DeepResearch estabelece novos resultados de ponta: a melhor pontuação geral (58,03%) no DeepResearch Bench e a melhor pontuação geral (61,95%) no DeepResearch Bench II, além de ficar em primeiro lugar em recuperação e análise de informações.
English
Deep Research (DR) has emerged as a new agentic paradigm to tackle complex, open-ended research tasks, demanding systems that can iteratively frame problems, acquire evidence, verify sources, and synthesize long-form reports. In practice, however, current DR systems are constrained by four interrelated limitations: long-horizon planning over an underspecified scope, the bottleneck of decomposing and scheduling such tasks within a single agent, hallucination risk in long-form synthesis, and limited process auditability. This technical report presents DuMate-DeepResearch, a multi-agent DR framework built on the Qianfan Agent Foundry. The framework decouples the Agent Core, which handles task understanding, planning, and scheduling, from an extensible Tool Ecosystem for retrieval, evidence acquisition, and report rendering, making every intermediate decision and tool invocation explicitly traceable. Building on this infrastructure, DuMate-DeepResearch further introduces three mechanisms: (i) a graph-based dynamic planning strategy expands the research roadmap coarse-to-fine and continuously revises it through reflection, re-planning, backtracking, and parallel branching; (ii) a recursive two-level execution design delegates each complex search sub-task to an inner Search Agent that runs its own planning loop, isolating noisy retrieval and stabilizing long-horizon execution; (iii) a rubric-based test-time optimization mechanism dynamically generates task-specific quality criteria and uses them as live reasoning scaffolds for evidence-grounded synthesis and adaptive stopping. Across two deep research benchmarks, DuMate-DeepResearch establishes new state-of-the-art results: the best overall score (58.03%) on DeepResearch Bench, and the best overall score (61.95%) on DeepResearch Bench II while ranking first in information recall and analysis.