Marco DeepResearch: Sbloccare Agenti di Ricerca Profonda Efficienti tramite Progettazione Centrata sulla Verifica

Abstract

Gli agenti di ricerca approfondita conducono autonomamente indagini a tema libero, integrando il recupero complesso di informazioni con ragionamenti multi-step su fonti diversificate per risolvere problemi del mondo reale. Per sostenere questa capacità in compiti a lungo termine, una verifica affidabile è cruciale sia durante l'addestramento che durante l'inferenza. Un collo di bottiglia principale nei paradigmi esistenti deriva dalla mancanza di meccanismi di verifica espliciti nella sintesi di dati di domande-risposte (QA), nella costruzione di traiettorie e nel ridimensionamento al momento del test. Gli errori introdotti in ogni fase si propagano a valle e degradano le prestazioni complessive dell'agente. Per affrontare questo problema, presentiamo Marco DeepResearch, un agente di ricerca approfondita ottimizzato con un framework progettato con approccio verification-centrico su tre livelli: (1) Sintesi di Dati QA: Introduciamo meccanismi di verifica nella sintesi QA basata su grafi e basata su agenti per controllare la difficoltà delle domande garantendo al contempo che le risposte siano univoche e corrette; (2) Costruzione della Traiettoria: Progettiamo un metodo di sintesi della traiettoria guidato dalla verifica che inietta pattern di verifica espliciti nelle traiettorie di addestramento; e (3) Ridimensionamento al momento del Test: Utilizziamo Marco DeepResearch stesso come verificatore durante l'inferenza, migliorando efficacemente le prestazioni su domande complesse. Risultati sperimentali estesi dimostrano che il nostro agente Marco DeepResearch proposto supera significativamente gli agenti di ricerca approfondita di scala 8B sulla maggior parte dei benchmark più impegnativi, come BrowseComp e BrowseComp-ZH. Crucialmente, con un budget massimo di 600 chiamate a strumenti, Marco DeepResearch supera addirittura o si avvicina a diversi agenti di scala 30B, come Tongyi DeepResearch-30B.

English

Deep research agents autonomously conduct open-ended investigations, integrating complex information retrieval with multi-step reasoning across diverse sources to solve real-world problems. To sustain this capability on long-horizon tasks, reliable verification is critical during both training and inference. A major bottleneck in existing paradigms stems from the lack of explicit verification mechanisms in QA data synthesis, trajectory construction, and test-time scaling. Errors introduced at each stage propagate downstream and degrade the overall agent performance. To address this, we present Marco DeepResearch, a deep research agent optimized with a verification-centric framework design at three levels: (1)~QA Data Synthesis: We introduce verification mechanisms to graph-based and agent-based QA synthesis to control question difficulty while ensuring answers are unique and correct; (2)~Trajectory Construction: We design a verification-driven trajectory synthesis method that injects explicit verification patterns into training trajectories; and (3)~Test-time scaling: We use Marco DeepResearch itself as a verifier at inference time and effectively improve performance on challenging questions. Extensive experimental results demonstrate that our proposed Marco DeepResearch agent significantly outperforms 8B-scale deep research agents on most challenging benchmarks, such as BrowseComp and BrowseComp-ZH. Crucially, under a maximum budget of 600 tool calls, Marco DeepResearch even surpasses or approaches several 30B-scale agents, like Tongyi DeepResearch-30B.

Marco DeepResearch: Sbloccare Agenti di Ricerca Profonda Efficienti tramite Progettazione Centrata sulla Verifica

Marco DeepResearch: Unlocking Efficient Deep Research Agents via Verification-Centric Design

Abstract

Support