DuMate-DeepResearch: Ein auditierbares Multi-Agenten-System mit rekursiver Suche und rubrikgestütztem Reasoning

Zusammenfassung

Deep Research (DR) hat sich als neues agentisches Paradigma zur Bewältigung komplexer, offener Forschungsaufgaben etabliert, das Systeme erfordert, die iterativ Probleme rahmen, Belege beschaffen, Quellen verifizieren und umfangreiche Berichte synthetisieren können. In der Praxis sind aktuelle DR-Systeme jedoch durch vier miteinander verbundene Einschränkungen begrenzt: die Planung über lange Horizonte bei unzureichend spezifiziertem Umfang, die Engpässe bei der Zerlegung und Terminierung solcher Aufgaben innerhalb eines einzelnen Agenten, das Halluzinationsrisiko bei der Synthese langer Texte sowie die eingeschränkte Prüfbarkeit von Prozessen. Dieser technische Bericht stellt DuMate-DeepResearch vor, ein Multi-Agenten-DR-Framework, das auf der Qianfan Agent Foundry aufbaut. Das Framework entkoppelt den Agent Core, der Aufgabenverständnis, Planung und Terminierung übernimmt, von einem erweiterbaren Tool Ecosystem für Abruf, Belegbeschaffung und Berichterstellung, wodurch jede Zwischenentscheidung und jeder Werkzeugaufruf explizit nachvollziehbar wird. Darauf aufbauend führt DuMate-DeepResearch drei Mechanismen ein: (i) eine graphbasierte dynamische Planungsstrategie, die den Forschungsfahrplan grob-zu-fein erweitert und kontinuierlich durch Reflexion, Neuplanung, Rückverfolgung und parallele Verzweigungen überarbeitet; (ii) ein rekursives zweistufiges Ausführungsdesign, das jede komplexe Suchteilaufgabe an einen inneren Search Agent delegiert, der seine eigene Planungsschleife durchführt, wodurch verrauschte Abfragen isoliert und die langfristige Ausführung stabilisiert werden; (iii) eine rubrikbasierte Testzeit-Optimierung, die dynamisch aufgabenspezifische Qualitätskriterien generiert und diese als lebendige Argumentationsgerüste für belegbasierte Synthese und adaptives Anhalten nutzt. In zwei Deep-Research-Benchmarks erzielt DuMate-DeepResearch neue Bestleistungen: die beste Gesamtpunktzahl (58,03%) auf DeepResearch Bench und die beste Gesamtpunktzahl (61,95%) auf DeepResearch Bench II, während es gleichzeitig den ersten Platz bei Informationsabruf und Analyse belegt.

English

Deep Research (DR) has emerged as a new agentic paradigm to tackle complex, open-ended research tasks, demanding systems that can iteratively frame problems, acquire evidence, verify sources, and synthesize long-form reports. In practice, however, current DR systems are constrained by four interrelated limitations: long-horizon planning over an underspecified scope, the bottleneck of decomposing and scheduling such tasks within a single agent, hallucination risk in long-form synthesis, and limited process auditability. This technical report presents DuMate-DeepResearch, a multi-agent DR framework built on the Qianfan Agent Foundry. The framework decouples the Agent Core, which handles task understanding, planning, and scheduling, from an extensible Tool Ecosystem for retrieval, evidence acquisition, and report rendering, making every intermediate decision and tool invocation explicitly traceable. Building on this infrastructure, DuMate-DeepResearch further introduces three mechanisms: (i) a graph-based dynamic planning strategy expands the research roadmap coarse-to-fine and continuously revises it through reflection, re-planning, backtracking, and parallel branching; (ii) a recursive two-level execution design delegates each complex search sub-task to an inner Search Agent that runs its own planning loop, isolating noisy retrieval and stabilizing long-horizon execution; (iii) a rubric-based test-time optimization mechanism dynamically generates task-specific quality criteria and uses them as live reasoning scaffolds for evidence-grounded synthesis and adaptive stopping. Across two deep research benchmarks, DuMate-DeepResearch establishes new state-of-the-art results: the best overall score (58.03%) on DeepResearch Bench, and the best overall score (61.95%) on DeepResearch Bench II while ranking first in information recall and analysis.