DuMate-DeepResearch : un système multi-agents auditable avec recherche récursive et raisonnement fondé sur des rubriques

Résumé

Deep Research (DR) est apparu comme un nouveau paradigme agentique pour aborder des tâches de recherche complexes et ouvertes, exigeant des systèmes capables de cadrer itérativement des problèmes, d'acquérir des preuves, de vérifier des sources et de synthétiser des rapports détaillés. En pratique, cependant, les systèmes DR actuels sont contraints par quatre limitations interdépendantes : une planification à long terme sur un périmètre sous-spécifié, le goulot d'étranglement que constitue la décomposition et l'ordonnancement de ces tâches au sein d'un seul agent, le risque d'hallucination dans la synthèse longue, et une auditabilité limitée du processus. Ce rapport technique présente DuMate-DeepResearch, un cadre multi-agent DR construit sur la Qianfan Agent Foundry. Ce cadre découple le Cœur Agent, chargé de la compréhension des tâches, de la planification et de l'ordonnancement, d'un Écosystème d'Outils extensible pour la recherche, l'acquisition de preuves et le rendu de rapports, rendant chaque décision intermédiaire et invocation d'outil explicitement traçable. S'appuyant sur cette infrastructure, DuMate-DeepResearch introduit en outre trois mécanismes : (i) une stratégie de planification dynamique basée sur un graphe qui élargit la feuille de route de recherche du grossier au fin et la révisie en continu via la réflexion, la replanification, le retour en arrière et le branchement parallèle ; (ii) une conception d'exécution récursive à deux niveaux qui délègue chaque sous-tâche de recherche complexe à un Agent de Recherche interne exécutant sa propre boucle de planification, isolant ainsi la recherche brutée et stabilisant l'exécution à long terme ; (iii) un mécanisme d'optimisation basé sur une grille d'évaluation en phase de test qui génère dynamiquement des critères de qualité spécifiques à la tâche et les utilise comme échafaudages de raisonnement en direct pour une synthèse ancrée sur les preuves et un arrêt adaptatif. Sur deux benchmarks de recherche approfondie, DuMate-DeepResearch établit de nouveaux résultats de pointe : le meilleur score global (58,03 %) sur DeepResearch Bench, et le meilleur score global (61,95 %) sur DeepResearch Bench II, tout en se classant premier en termes de rappel d'information et d'analyse.

English

Deep Research (DR) has emerged as a new agentic paradigm to tackle complex, open-ended research tasks, demanding systems that can iteratively frame problems, acquire evidence, verify sources, and synthesize long-form reports. In practice, however, current DR systems are constrained by four interrelated limitations: long-horizon planning over an underspecified scope, the bottleneck of decomposing and scheduling such tasks within a single agent, hallucination risk in long-form synthesis, and limited process auditability. This technical report presents DuMate-DeepResearch, a multi-agent DR framework built on the Qianfan Agent Foundry. The framework decouples the Agent Core, which handles task understanding, planning, and scheduling, from an extensible Tool Ecosystem for retrieval, evidence acquisition, and report rendering, making every intermediate decision and tool invocation explicitly traceable. Building on this infrastructure, DuMate-DeepResearch further introduces three mechanisms: (i) a graph-based dynamic planning strategy expands the research roadmap coarse-to-fine and continuously revises it through reflection, re-planning, backtracking, and parallel branching; (ii) a recursive two-level execution design delegates each complex search sub-task to an inner Search Agent that runs its own planning loop, isolating noisy retrieval and stabilizing long-horizon execution; (iii) a rubric-based test-time optimization mechanism dynamically generates task-specific quality criteria and uses them as live reasoning scaffolds for evidence-grounded synthesis and adaptive stopping. Across two deep research benchmarks, DuMate-DeepResearch establishes new state-of-the-art results: the best overall score (58.03%) on DeepResearch Bench, and the best overall score (61.95%) on DeepResearch Bench II while ranking first in information recall and analysis.