DuMate-DeepResearch: Un Sistema Multiagente Auditable con Búsqueda Recursiva y Razonamiento Basado en Rúbricas

Resumen

La Investigación Profunda (DR) ha emergido como un nuevo paradigma agéntico para abordar tareas de investigación complejas y de alcance abierto, que exigen sistemas capaces de formular problemas de manera iterativa, adquirir evidencia, verificar fuentes y sintetizar informes extensos. En la práctica, sin embargo, los sistemas actuales de DR están limitados por cuatro restricciones interrelacionadas: la planificación a largo plazo sobre un alcance subespecificado, el cuello de botella de descomponer y programar dichas tareas dentro de un único agente, el riesgo de alucinación en la síntesis de informes extensos y la auditabilidad limitada del proceso. Este informe técnico presenta DuMate-DeepResearch, un marco de trabajo multiagente para DR construido sobre la plataforma Qianfan Agent Foundry. El marco desacopla el Núcleo del Agente, que maneja la comprensión, planificación y programación de tareas, de un Ecosistema de Herramientas extensible para la recuperación, adquisición de evidencia y generación de informes, haciendo que cada decisión intermedia e invocación de herramienta sean explícitamente trazables. Sobre esta infraestructura, DuMate-DeepResearch introduce además tres mecanismos: (i) una estrategia de planificación dinámica basada en grafos que expande la ruta de investigación de manera gruesa a fina y la revisa continuamente mediante reflexión, replanificación, retroceso y ramificación paralela; (ii) un diseño de ejecución recursivo de dos niveles que delega cada subtarea de búsqueda compleja a un Agente de Búsqueda interno que ejecuta su propio bucle de planificación, aislando la recuperación ruidosa y estabilizando la ejecución a largo plazo; (iii) un mecanismo de optimización dinámica basado en rúbricas que genera criterios de calidad específicos de la tarea y los utiliza como andamiajes de razonamiento en tiempo real para la síntesis fundamentada en evidencia y la detención adaptativa. En dos referencias de investigación profunda, DuMate-DeepResearch establece nuevos resultados de estado del arte: la mejor puntuación global (58,03 %) en DeepResearch Bench y la mejor puntuación global (61,95 %) en DeepResearch Bench II, ocupando el primer lugar en recuperación de información y análisis.

English

Deep Research (DR) has emerged as a new agentic paradigm to tackle complex, open-ended research tasks, demanding systems that can iteratively frame problems, acquire evidence, verify sources, and synthesize long-form reports. In practice, however, current DR systems are constrained by four interrelated limitations: long-horizon planning over an underspecified scope, the bottleneck of decomposing and scheduling such tasks within a single agent, hallucination risk in long-form synthesis, and limited process auditability. This technical report presents DuMate-DeepResearch, a multi-agent DR framework built on the Qianfan Agent Foundry. The framework decouples the Agent Core, which handles task understanding, planning, and scheduling, from an extensible Tool Ecosystem for retrieval, evidence acquisition, and report rendering, making every intermediate decision and tool invocation explicitly traceable. Building on this infrastructure, DuMate-DeepResearch further introduces three mechanisms: (i) a graph-based dynamic planning strategy expands the research roadmap coarse-to-fine and continuously revises it through reflection, re-planning, backtracking, and parallel branching; (ii) a recursive two-level execution design delegates each complex search sub-task to an inner Search Agent that runs its own planning loop, isolating noisy retrieval and stabilizing long-horizon execution; (iii) a rubric-based test-time optimization mechanism dynamically generates task-specific quality criteria and uses them as live reasoning scaffolds for evidence-grounded synthesis and adaptive stopping. Across two deep research benchmarks, DuMate-DeepResearch establishes new state-of-the-art results: the best overall score (58.03%) on DeepResearch Bench, and the best overall score (61.95%) on DeepResearch Bench II while ranking first in information recall and analysis.