DuMate-DeepResearch: Een auditabel multi-agentsysteem met recursief zoeken en rubriekgebaseerd redeneren.

Samenvatting

Deep Research (DR) is naar voren gekomen als een nieuw agentisch paradigma voor het aanpakken van complexe, open onderzoekstaken, waarbij systemen nodig zijn die iteratief problemen kunnen formuleren, bewijsmateriaal kunnen verzamelen, bronnen kunnen verifiëren en langere rapporten kunnen synthetiseren. In de praktijk worden huidige DR-systemen echter beperkt door vier onderling samenhangende tekortkomingen: planning op lange termijn over een onderbepaalde reikwijdte, de bottleneck van het opsplitsen en plannen van dergelijke taken binnen één enkele agent, hallucinatierisico bij synthese van langere teksten, en beperkte procescontroleerbaarheid. Dit technisch rapport presenteert DuMate-DeepResearch, een multi-agent DR-raamwerk gebouwd op de Qianfan Agent Foundry. Dit raamwerk ontkoppelt de Agent Core, die taakbegrip, planning en scheduling verzorgt, van een uitbreidbaar Tool Ecosystem voor zoekopdrachten, bewijsverzameling en rapportweergave, waardoor elke tussenliggende beslissing en toolaanroep expliciet traceerbaar wordt. Voortbouwend op deze infrastructuur introduceert DuMate-DeepResearch drie mechanismen: (i) een grafgebaseerde dynamische planningsstrategie die de onderzoeksroute van grof naar fijn uitbreidt en continu bijstuurt via reflectie, herplanning, terugkoppeling en parallelle vertakkingen; (ii) een recursieve uitvoering op twee niveaus die elke complexe deeltaak voor zoekopdrachten delegeert aan een interne Search Agent met een eigen planningslus, waardoor ruisrijke zoekopdrachten worden geïsoleerd en de stabiliteit van langetermijnuitvoering wordt vergroot; (iii) een rubriekgebaseerde optimalisatie bij testtijd die dynamisch taakspecifieke kwaliteitscriteria genereert en deze gebruikt als levende redeneersteigers voor op bewijs gebaseerde synthese en adaptieve stopcondities. Op twee diepgaande onderzoeksbenchmarks behaalt DuMate-DeepResearch nieuwe state-of-the-art resultaten: de hoogste totale score (58,03%) op DeepResearch Bench, en de hoogste totale score (61,95%) op DeepResearch Bench II, met een eerste plaats op het gebied van informatieherinnering en -analyse.

English

Deep Research (DR) has emerged as a new agentic paradigm to tackle complex, open-ended research tasks, demanding systems that can iteratively frame problems, acquire evidence, verify sources, and synthesize long-form reports. In practice, however, current DR systems are constrained by four interrelated limitations: long-horizon planning over an underspecified scope, the bottleneck of decomposing and scheduling such tasks within a single agent, hallucination risk in long-form synthesis, and limited process auditability. This technical report presents DuMate-DeepResearch, a multi-agent DR framework built on the Qianfan Agent Foundry. The framework decouples the Agent Core, which handles task understanding, planning, and scheduling, from an extensible Tool Ecosystem for retrieval, evidence acquisition, and report rendering, making every intermediate decision and tool invocation explicitly traceable. Building on this infrastructure, DuMate-DeepResearch further introduces three mechanisms: (i) a graph-based dynamic planning strategy expands the research roadmap coarse-to-fine and continuously revises it through reflection, re-planning, backtracking, and parallel branching; (ii) a recursive two-level execution design delegates each complex search sub-task to an inner Search Agent that runs its own planning loop, isolating noisy retrieval and stabilizing long-horizon execution; (iii) a rubric-based test-time optimization mechanism dynamically generates task-specific quality criteria and uses them as live reasoning scaffolds for evidence-grounded synthesis and adaptive stopping. Across two deep research benchmarks, DuMate-DeepResearch establishes new state-of-the-art results: the best overall score (58.03%) on DeepResearch Bench, and the best overall score (61.95%) on DeepResearch Bench II while ranking first in information recall and analysis.