Marco DeepResearch: Раскрытие потенциала эффективных агентов углубленного исследования с помощью верификационно-ориентированного дизайна

Аннотация

Глубокие исследовательские агенты автономно проводят открытые исследования, интегрируя сложный информационный поиск с многошаговыми рассуждениями на основе разнородных источников для решения реальных задач. Для поддержания этой способности в долгосрочных заданиях надежная верификация критически важна как на этапе обучения, так и на этапе вывода. Основное узкое место существующих парадигм связано с отсутствием явных механизмов проверки при синтезе вопросно-ответных данных, построении траекторий и масштабировании на этапе тестирования. Ошибки, возникающие на каждом этапе, распространяются по цепочке и снижают общую производительность агента. Для решения этой проблемы мы представляем Marco DeepResearch — глубокий исследовательский агент, оптимизированный с помощью верификационно-ориентированного каркасного дизайна на трех уровнях: (1)~Синтез QA-данных: мы внедряем механизмы верификации в графовый и агентский синтез вопросов и ответов для контроля сложности вопросов при гарантии уникальности и правильности ответов; (2)~Построение траекторий: мы разрабатываем метод синтеза траекторий на основе верификации, который внедряет явные шаблоны проверки в обучающие траектории; и (3)~Масштабирование на этапе тестирования: мы используем сам Marco DeepResearch в качестве верификатора на этапе вывода, эффективно повышая производительность на сложных вопросах. Результаты масштабных экспериментов демонстрируют, что наш агент Marco DeepResearch значительно превосходит глубокие исследовательские агенты масштаба 8B на наиболее сложных тестовых наборах, таких как BrowseComp и BrowseComp-ZH. Что особенно важно, при максимальном бюджете в 600 вызовов инструментов Marco DeepResearch даже превосходит или приближается к нескольким агентам масштаба 30B, таким как Tongyi DeepResearch-30B.

English

Deep research agents autonomously conduct open-ended investigations, integrating complex information retrieval with multi-step reasoning across diverse sources to solve real-world problems. To sustain this capability on long-horizon tasks, reliable verification is critical during both training and inference. A major bottleneck in existing paradigms stems from the lack of explicit verification mechanisms in QA data synthesis, trajectory construction, and test-time scaling. Errors introduced at each stage propagate downstream and degrade the overall agent performance. To address this, we present Marco DeepResearch, a deep research agent optimized with a verification-centric framework design at three levels: (1)~QA Data Synthesis: We introduce verification mechanisms to graph-based and agent-based QA synthesis to control question difficulty while ensuring answers are unique and correct; (2)~Trajectory Construction: We design a verification-driven trajectory synthesis method that injects explicit verification patterns into training trajectories; and (3)~Test-time scaling: We use Marco DeepResearch itself as a verifier at inference time and effectively improve performance on challenging questions. Extensive experimental results demonstrate that our proposed Marco DeepResearch agent significantly outperforms 8B-scale deep research agents on most challenging benchmarks, such as BrowseComp and BrowseComp-ZH. Crucially, under a maximum budget of 600 tool calls, Marco DeepResearch even surpasses or approaches several 30B-scale agents, like Tongyi DeepResearch-30B.

Marco DeepResearch: Раскрытие потенциала эффективных агентов углубленного исследования с помощью верификационно-ориентированного дизайна

Marco DeepResearch: Unlocking Efficient Deep Research Agents via Verification-Centric Design

Аннотация

Support