DuMate-DeepResearch: Аудитируемая мультиагентная система с рекурсивным поиском и рассуждением на основе рубрик

Аннотация

Deep Research (DR) превратился в новую агентную парадигму для решения сложных исследовательских задач открытого типа, требующих систем, способных итеративно формулировать проблемы, собирать свидетельства, проверять источники и синтезировать развернутые отчеты. Однако на практике современные системы DR ограничены четырьмя взаимосвязанными недостатками: долгосрочным планированием в условиях неопределенной области («underspecified scope»); узким местом декомпозиции и планирования таких задач в рамках одного агента; риском галлюцинаций при синтезе длинных текстов; а также ограниченной возможностью аудита процесса. В настоящем техническом отчете представлен DuMate-DeepResearch — многоагентный фреймворк DR, построенный на платформе Qianfan Agent Foundry. Данный фреймворк отделяет ядро агента (Agent Core), отвечающее за понимание задачи, планирование и составление расписания, от расширяемой экосистемы инструментов (Tool Ecosystem), предназначенных для поиска, получения доказательств и формирования отчетов, что делает каждое промежуточное решение и вызов инструмента явно отслеживаемыми. Развивая эту инфраструктуру, DuMate-DeepResearch дополнительно вводит три механизма: (i) стратегию динамического планирования на основе графов, которая разворачивает исследовательскую дорожную карту от общего к частному и непрерывно корректирует ее посредством рефлексии, перепланирования, возврата и параллельного ветвления; (ii) рекурсивную двухуровневую архитектуру выполнения, при которой каждая сложная подзадача поиска делегируется внутреннему агенту поиска (Search Agent), выполняющему собственный цикл планирования, что изолирует зашумленный поиск и стабилизирует долгосрочное выполнение; (iii) механизм оптимизации на основе рубрик (rubric-based) во время тестирования, который динамически генерирует критерии качества, специфичные для задачи, и использует их в качестве живых опор для рассуждений при синтезе на основе доказательств и адаптивном останове. На двух бенчмарках глубоких исследований DuMate-DeepResearch устанавливает новые результаты на уровне современного искусства: лучший общий балл (58.03%) на DeepResearch Bench и лучший общий балл (61.95%) на DeepResearch Bench II, заняв при этом первое место по полноте и анализу информации.

English

Deep Research (DR) has emerged as a new agentic paradigm to tackle complex, open-ended research tasks, demanding systems that can iteratively frame problems, acquire evidence, verify sources, and synthesize long-form reports. In practice, however, current DR systems are constrained by four interrelated limitations: long-horizon planning over an underspecified scope, the bottleneck of decomposing and scheduling such tasks within a single agent, hallucination risk in long-form synthesis, and limited process auditability. This technical report presents DuMate-DeepResearch, a multi-agent DR framework built on the Qianfan Agent Foundry. The framework decouples the Agent Core, which handles task understanding, planning, and scheduling, from an extensible Tool Ecosystem for retrieval, evidence acquisition, and report rendering, making every intermediate decision and tool invocation explicitly traceable. Building on this infrastructure, DuMate-DeepResearch further introduces three mechanisms: (i) a graph-based dynamic planning strategy expands the research roadmap coarse-to-fine and continuously revises it through reflection, re-planning, backtracking, and parallel branching; (ii) a recursive two-level execution design delegates each complex search sub-task to an inner Search Agent that runs its own planning loop, isolating noisy retrieval and stabilizing long-horizon execution; (iii) a rubric-based test-time optimization mechanism dynamically generates task-specific quality criteria and uses them as live reasoning scaffolds for evidence-grounded synthesis and adaptive stopping. Across two deep research benchmarks, DuMate-DeepResearch establishes new state-of-the-art results: the best overall score (58.03%) on DeepResearch Bench, and the best overall score (61.95%) on DeepResearch Bench II while ranking first in information recall and analysis.