Marco DeepResearch: Effiziente Deep-Research-Agenten durch verifikationszentriertes Design

Zusammenfassung

Tiefe Forschungsagenten führen eigenständig offene Untersuchungen durch, indem sie komplexe Informationsbeschaffung mit mehrstufiger Schlussfolgerung aus verschiedenen Quellen integrieren, um reale Probleme zu lösen. Um diese Fähigkeit bei langfristigen Aufgaben aufrechtzuerhalten, ist eine zuverlässige Verifizierung sowohl während des Trainings als auch während des Inferenzvorgangs entscheidend. Ein Hauptengpass in bestehenden Paradigmen resultiert aus dem Fehlen expliziter Verifizierungsmechanismen bei der Synthese von Frage-Antwort-Daten, der Trajektorienkonstruktion und der Skalierung zur Testzeit. Fehler, die in jeder Phase eingeführt werden, pflanzen sich nachgelagert fort und verschlechtern die Gesamtleistung des Agenten. Um dies zu adressieren, stellen wir Marco DeepResearch vor, einen tiefen Forschungsagenten, der mit einem verifizierungszentrierten Framework-Design auf drei Ebenen optimiert ist: (1)~QA-Datensynthese: Wir führen Verifizierungsmechanismen in graphenbasierte und agentenbasierte QA-Synthese ein, um die Schwierigkeit der Fragen zu steuern und gleichzeitig sicherzustellen, dass Antworten eindeutig und korrekt sind; (2)~Trajektorienkonstruktion: Wir entwerfen eine verifizierungsgesteuerte Trajektoriensynthese-Methode, die explizite Verifizierungsmuster in Trainings-Trajektorien injiziert; und (3)~Skalierung zur Testzeit: Wir verwenden Marco DeepResearch selbst zur Inferenzzeit als Verifizierer und verbessern effektiv die Leistung bei anspruchsvollen Fragen. Umfangreiche experimentelle Ergebnisse zeigen, dass unser vorgeschlagener Marco DeepResearch-Agent 8B-skalige tiefe Forschungsagenten auf den meisten anspruchsvollen Benchmarks, wie BrowseComp und BrowseComp-ZH, signifikant übertrifft. Entscheidend ist, dass Marco DeepResearch bei einem maximalen Budget von 600 Tool-Aufrufen sogar mehrere 30B-skalige Agenten, wie Tongyi DeepResearch-30B, übertrifft oder ihnen nahekommt.

English

Deep research agents autonomously conduct open-ended investigations, integrating complex information retrieval with multi-step reasoning across diverse sources to solve real-world problems. To sustain this capability on long-horizon tasks, reliable verification is critical during both training and inference. A major bottleneck in existing paradigms stems from the lack of explicit verification mechanisms in QA data synthesis, trajectory construction, and test-time scaling. Errors introduced at each stage propagate downstream and degrade the overall agent performance. To address this, we present Marco DeepResearch, a deep research agent optimized with a verification-centric framework design at three levels: (1)~QA Data Synthesis: We introduce verification mechanisms to graph-based and agent-based QA synthesis to control question difficulty while ensuring answers are unique and correct; (2)~Trajectory Construction: We design a verification-driven trajectory synthesis method that injects explicit verification patterns into training trajectories; and (3)~Test-time scaling: We use Marco DeepResearch itself as a verifier at inference time and effectively improve performance on challenging questions. Extensive experimental results demonstrate that our proposed Marco DeepResearch agent significantly outperforms 8B-scale deep research agents on most challenging benchmarks, such as BrowseComp and BrowseComp-ZH. Crucially, under a maximum budget of 600 tool calls, Marco DeepResearch even surpasses or approaches several 30B-scale agents, like Tongyi DeepResearch-30B.

Marco DeepResearch: Effiziente Deep-Research-Agenten durch verifikationszentriertes Design

Marco DeepResearch: Unlocking Efficient Deep Research Agents via Verification-Centric Design

Zusammenfassung

Support