Marco DeepResearch: Desbloqueando Agentes de Pesquisa Profunda Eficientes por Meio de um Design Centrado na Verificação

Resumo

Os agentes de pesquisa profunda conduzem investigações de forma autónoma e aberta, integrando a recuperação complexa de informação com raciocínio multi-etapa através de diversas fontes para resolver problemas do mundo real. Para sustentar esta capacidade em tarefas de longo prazo, uma verificação fiável é crítica tanto durante o treino como durante a inferência. Um grande estrangulamento nos paradigmas existentes decorre da falta de mecanismos explícitos de verificação na síntese de dados de Perguntas e Respostas (Q&A), na construção de trajetórias e na escalagem em tempo de teste. Os erros introduzidos em cada fase propagam-se para as fases seguintes e degradam o desempenho global do agente. Para resolver isto, apresentamos o Marco DeepResearch, um agente de pesquisa profunda otimizado com um desenho de *framework* centrado na verificação a três níveis: (1)~Síntese de Dados Q&A: Introduzimos mecanismos de verificação na síntese de Q&A baseada em grafos e baseada em agentes para controlar a dificuldade das questões, garantindo ao mesmo tempo que as respostas são únicas e corretas; (2)~Construção de Trajetórias: Concebemos um método de síntese de trajetórias orientado para a verificação que injeta padrões explícitos de verificação nas trajetórias de treino; e (3)~Escalagem em Tempo de Teste: Utilizamos o próprio Marco DeepResearch como verificador no tempo de inferência, melhorando eficazmente o desempenho em questões desafiantes. Resultados experimentais extensivos demonstram que o nosso agente Marco DeepResearch proposto supera significativamente agentes de pesquisa profunda de escala 8B na maioria dos *benchmarks* desafiantes, como o BrowseComp e o BrowseComp-ZH. Crucialmente, sob um orçamento máximo de 600 chamadas de ferramentas, o Marco DeepResearch chega mesmo a superar ou a aproximar-se de vários agentes de escala 30B, como o Tongyi DeepResearch-30B.

English

Deep research agents autonomously conduct open-ended investigations, integrating complex information retrieval with multi-step reasoning across diverse sources to solve real-world problems. To sustain this capability on long-horizon tasks, reliable verification is critical during both training and inference. A major bottleneck in existing paradigms stems from the lack of explicit verification mechanisms in QA data synthesis, trajectory construction, and test-time scaling. Errors introduced at each stage propagate downstream and degrade the overall agent performance. To address this, we present Marco DeepResearch, a deep research agent optimized with a verification-centric framework design at three levels: (1)~QA Data Synthesis: We introduce verification mechanisms to graph-based and agent-based QA synthesis to control question difficulty while ensuring answers are unique and correct; (2)~Trajectory Construction: We design a verification-driven trajectory synthesis method that injects explicit verification patterns into training trajectories; and (3)~Test-time scaling: We use Marco DeepResearch itself as a verifier at inference time and effectively improve performance on challenging questions. Extensive experimental results demonstrate that our proposed Marco DeepResearch agent significantly outperforms 8B-scale deep research agents on most challenging benchmarks, such as BrowseComp and BrowseComp-ZH. Crucially, under a maximum budget of 600 tool calls, Marco DeepResearch even surpasses or approaches several 30B-scale agents, like Tongyi DeepResearch-30B.

Marco DeepResearch: Desbloqueando Agentes de Pesquisa Profunda Eficientes por Meio de um Design Centrado na Verificação

Marco DeepResearch: Unlocking Efficient Deep Research Agents via Verification-Centric Design

Resumo

Support