Marco DeepResearch: Efficiënte Deep Research Agents Ontsluiten via Verificatie-Gericht Ontwerp

Samenvatting

Diepgaande onderzoeksagenten voeren autonoom open-einde onderzoeken uit, waarbij ze complexe informatieverwerking combineren met meerstapsredenering over diverse bronnen om real-world problemen op te lossen. Om dit vermogen bij langetermijntaken te behouden, is betrouwbare verificatie cruciaal tijdens zowel training als inferentie. Een belangrijke bottleneck in bestaande paradigma's ontstaat door het ontbreken van expliciete verificatiemechanismen bij QA-datasynthese, trajectconstructie en testtime-schaling. Fouten die in elke fase worden geïntroduceerd, planten zich stroomafwaarts voort en verslechteren de algehele agentprestatie. Om dit aan te pakken, presenteren we Marco DeepResearch, een diepgaande onderzoeksagent geoptimaliseerd met een verificatiegericht kaderontwerp op drie niveaus: (1)~QA-datasynthese: We introduceren verificatiemechanismen in op grafen en agenten gebaseerde QA-synthese om de vraagmoeilijkheid te beheersen en tegelijkertijd te garanderen dat antwoorden uniek en correct zijn; (2)~Trajectconstructie: We ontwerpen een verificatiegedreven trajectsynthesemethode die expliciete verificatiepatronen in trainingspaden injecteert; en (3)~Testtime-schaling: We gebruiken Marco DeepResearch zelf als verifier tijdens inferentie en verbeteren effectief de prestaties op uitdagende vragen. Uitgebreide experimentele resultaten tonen aan dat onze voorgestelde Marco DeepResearch-agent aanzienlijk beter presteert dan 8B-schaal diepgaande onderzoeksagenten op de meest uitdagende benchmarks, zoals BrowseComp en BrowseComp-ZH. Cruciaal is dat Marco DeepResearch onder een maximaal budget van 600 toolaanroepen zelfs verschillende 30B-schaal agenten overtreft of benadert, zoals Tongyi DeepResearch-30B.

English

Deep research agents autonomously conduct open-ended investigations, integrating complex information retrieval with multi-step reasoning across diverse sources to solve real-world problems. To sustain this capability on long-horizon tasks, reliable verification is critical during both training and inference. A major bottleneck in existing paradigms stems from the lack of explicit verification mechanisms in QA data synthesis, trajectory construction, and test-time scaling. Errors introduced at each stage propagate downstream and degrade the overall agent performance. To address this, we present Marco DeepResearch, a deep research agent optimized with a verification-centric framework design at three levels: (1)~QA Data Synthesis: We introduce verification mechanisms to graph-based and agent-based QA synthesis to control question difficulty while ensuring answers are unique and correct; (2)~Trajectory Construction: We design a verification-driven trajectory synthesis method that injects explicit verification patterns into training trajectories; and (3)~Test-time scaling: We use Marco DeepResearch itself as a verifier at inference time and effectively improve performance on challenging questions. Extensive experimental results demonstrate that our proposed Marco DeepResearch agent significantly outperforms 8B-scale deep research agents on most challenging benchmarks, such as BrowseComp and BrowseComp-ZH. Crucially, under a maximum budget of 600 tool calls, Marco DeepResearch even surpasses or approaches several 30B-scale agents, like Tongyi DeepResearch-30B.

Marco DeepResearch: Efficiënte Deep Research Agents Ontsluiten via Verificatie-Gericht Ontwerp

Marco DeepResearch: Unlocking Efficient Deep Research Agents via Verification-Centric Design

Samenvatting

Support