Marco DeepResearch : Libérer l'efficacité des agents de recherche approfondie grâce à une conception axée sur la vérification

Résumé

Les agents de recherche approfondie mènent de manière autonome des investigations ouvertes, intégrant une recherche d'informations complexe à un raisonnement multi-étapes à travers des sources diverses pour résoudre des problèmes concrets. Pour maintenir cette capacité sur des tâches à long terme, une vérification fiable est cruciale tant lors de l'entraînement que de l'inférence. Un goulot d'étranglement majeur des paradigmes existants provient de l'absence de mécanismes de vérification explicites dans la synthèse des données de questions-réponses (QA), la construction des trajectoires et la mise à l'échelle lors des tests. Les erreurs introduites à chaque étape se propagent en aval et dégradent les performances globales de l'agent. Pour y remédier, nous présentons Marco DeepResearch, un agent de recherche approfondie optimisé par une conception de cadre axée sur la vérification à trois niveaux : (1)~Synthèse des données QA : Nous introduisons des mécanismes de vérification dans la synthèse QA basée sur les graphes et sur les agents pour contrôler la difficulté des questions tout en garantissant que les réponses sont uniques et correctes ; (2)~Construction de trajectoires : Nous concevons une méthode de synthèse de trajectoires pilotée par la vérification qui injecte des schémas de vérification explicites dans les trajectoires d'entraînement ; et (3)~Mise à l'échelle lors des tests : Nous utilisons Marco DeepResearch lui-même comme vérificateur au moment de l'inférence, améliorant ainsi efficacement les performances sur les questions difficiles. Des résultats expérimentaux approfondis démontrent que notre agent Marco DeepResearch proposé surpasse significativement les agents de recherche approfondie de taille 8B sur la plupart des benchmarks exigeants, tels que BrowseComp et BrowseComp-ZH. Fait crucial, avec un budget maximum de 600 appels d'outils, Marco DeepResearch dépasse ou approche même les performances de plusieurs agents de taille 30B, comme Tongyi DeepResearch-30B.

English

Deep research agents autonomously conduct open-ended investigations, integrating complex information retrieval with multi-step reasoning across diverse sources to solve real-world problems. To sustain this capability on long-horizon tasks, reliable verification is critical during both training and inference. A major bottleneck in existing paradigms stems from the lack of explicit verification mechanisms in QA data synthesis, trajectory construction, and test-time scaling. Errors introduced at each stage propagate downstream and degrade the overall agent performance. To address this, we present Marco DeepResearch, a deep research agent optimized with a verification-centric framework design at three levels: (1)~QA Data Synthesis: We introduce verification mechanisms to graph-based and agent-based QA synthesis to control question difficulty while ensuring answers are unique and correct; (2)~Trajectory Construction: We design a verification-driven trajectory synthesis method that injects explicit verification patterns into training trajectories; and (3)~Test-time scaling: We use Marco DeepResearch itself as a verifier at inference time and effectively improve performance on challenging questions. Extensive experimental results demonstrate that our proposed Marco DeepResearch agent significantly outperforms 8B-scale deep research agents on most challenging benchmarks, such as BrowseComp and BrowseComp-ZH. Crucially, under a maximum budget of 600 tool calls, Marco DeepResearch even surpasses or approaches several 30B-scale agents, like Tongyi DeepResearch-30B.

Marco DeepResearch : Libérer l'efficacité des agents de recherche approfondie grâce à une conception axée sur la vérification

Marco DeepResearch: Unlocking Efficient Deep Research Agents via Verification-Centric Design

Résumé

Support