Marco DeepResearch: Desbloqueo de Agentes de Investigación Profunda Eficientes mediante un Diseño Centrado en la Verificación

Resumen

Los agentes de investigación profunda realizan investigaciones abiertas de forma autónoma, integrando la recuperación compleja de información con el razonamiento multi-etapa a través de diversas fuentes para resolver problemas del mundo real. Para mantener esta capacidad en tareas de largo horizonte, la verificación confiable es crucial tanto durante el entrenamiento como en la inferencia. Un cuello de botella principal en los paradigmas existentes surge de la falta de mecanismos explícitos de verificación en la síntesis de datos de preguntas y respuestas (QA), la construcción de trayectorias y la escalabilidad en tiempo de prueba. Los errores introducidos en cada etapa se propagan aguas abajo y degradan el rendimiento general del agente. Para abordar esto, presentamos Marco DeepResearch, un agente de investigación profunda optimizado con un diseño de marco centrado en la verificación en tres niveles: (1)~Síntesis de Datos QA: Introducimos mecanismos de verificación en la síntesis de QA basada en grafos y basada en agentes para controlar la dificultad de las preguntas mientras aseguramos que las respuestas sean únicas y correctas; (2)~Construcción de Trayectorias: Diseñamos un método de síntesis de trayectorias impulsado por la verificación que inyecta patrones de verificación explícitos en las trayectorias de entrenamiento; y (3)~Escalado en Tiempo de Prueba: Utilizamos al propio Marco DeepResearch como verificador durante la inferencia y mejoramos efectivamente el rendimiento en preguntas desafiantes. Resultados experimentales exhaustivos demuestran que nuestro agente Marco DeepResearch propuesto supera significativamente a agentes de investigación profunda de escala 8B en la mayoría de los puntos de referencia desafiantes, como BrowseComp y BrowseComp-ZH. Crucialmente, bajo un presupuesto máximo de 600 llamadas a herramientas, Marco DeepResearch incluso supera o se aproxima a varios agentes de escala 30B, como Tongyi DeepResearch-30B.

English

Deep research agents autonomously conduct open-ended investigations, integrating complex information retrieval with multi-step reasoning across diverse sources to solve real-world problems. To sustain this capability on long-horizon tasks, reliable verification is critical during both training and inference. A major bottleneck in existing paradigms stems from the lack of explicit verification mechanisms in QA data synthesis, trajectory construction, and test-time scaling. Errors introduced at each stage propagate downstream and degrade the overall agent performance. To address this, we present Marco DeepResearch, a deep research agent optimized with a verification-centric framework design at three levels: (1)~QA Data Synthesis: We introduce verification mechanisms to graph-based and agent-based QA synthesis to control question difficulty while ensuring answers are unique and correct; (2)~Trajectory Construction: We design a verification-driven trajectory synthesis method that injects explicit verification patterns into training trajectories; and (3)~Test-time scaling: We use Marco DeepResearch itself as a verifier at inference time and effectively improve performance on challenging questions. Extensive experimental results demonstrate that our proposed Marco DeepResearch agent significantly outperforms 8B-scale deep research agents on most challenging benchmarks, such as BrowseComp and BrowseComp-ZH. Crucially, under a maximum budget of 600 tool calls, Marco DeepResearch even surpasses or approaches several 30B-scale agents, like Tongyi DeepResearch-30B.

Marco DeepResearch: Desbloqueo de Agentes de Investigación Profunda Eficientes mediante un Diseño Centrado en la Verificación

Marco DeepResearch: Unlocking Efficient Deep Research Agents via Verification-Centric Design

Resumen

Support