DR-Venus: Hacia Agentes de Investigación Profunda de Vanguardia a Escala de Borde con Solo 10K Datos Abiertos

Resumen

Los agentes de investigación profunda a escala de borde basados en pequeños modelos de lenguaje son atractivos para su implementación en el mundo real debido a sus ventajas en coste, latencia y privacidad. En este trabajo, estudiamos cómo entrenar un agente de investigación profunda pequeño pero robusto con datos abiertos limitados, mejorando tanto la calidad como la utilización de los datos. Presentamos DR-Venus, un agente de investigación profuna de vanguardia de 4B para implementación a escala de borde, construido completamente con datos abiertos. Nuestra receta de entrenamiento consta de dos etapas. En la primera etapa, utilizamos el ajuste fino supervisado (SFT) agéntico para establecer capacidades agenticas básicas, combinando una limpieza estricta de datos con un remuestreo de trayectorias de horizonte largo para mejorar la calidad y utilización de los datos. En la segunda etapa, aplicamos el aprendizaje por refuerzo (RL) agéntico para mejorar aún más la fiabilidad de ejecución en tareas de investigación profunda de horizonte largo. Para que el RL sea efectivo para agentes pequeños en este contexto, nos basamos en IGPO y diseñamos recompensas a nivel de turno basadas en ganancia de información y regularización consciente del formato, mejorando así la densidad de supervisión y la asignación de crédito a nivel de turno. Construido completamente con aproximadamente 10K datos abiertos, DR-Venus-4B supera significativamente a modelos agenticos anteriores con menos de 9B parámetros en múltiples benchmarks de investigación profunda, al tiempo que reduce la brecha con sistemas mucho más grandes de clase 30B. Nuestro análisis adicional muestra que los agentes de 4B ya poseen un potencial de rendimiento sorprendentemente fuerte, destacando tanto la promesa de implementación de los modelos pequeños como el valor del escalado en tiempo de prueba en este contexto. Liberamos nuestros modelos, código y recetas clave para apoyar la investigación reproducible en agentes de investigación profunda a escala de borde.

English

Edge-scale deep research agents based on small language models are attractive for real-world deployment due to their advantages in cost, latency, and privacy. In this work, we study how to train a strong small deep research agent under limited open-data by improving both data quality and data utilization. We present DR-Venus, a frontier 4B deep research agent for edge-scale deployment, built entirely on open data. Our training recipe consists of two stages. In the first stage, we use agentic supervised fine-tuning (SFT) to establish basic agentic capability, combining strict data cleaning with resampling of long-horizon trajectories to improve data quality and utilization. In the second stage, we apply agentic reinforcement learning (RL) to further improve execution reliability on long-horizon deep research tasks. To make RL effective for small agents in this setting, we build on IGPO and design turn-level rewards based on information gain and format-aware regularization, thereby enhancing supervision density and turn-level credit assignment. Built entirely on roughly 10K open-data, DR-Venus-4B significantly outperforms prior agentic models under 9B parameters on multiple deep research benchmarks, while also narrowing the gap to much larger 30B-class systems. Our further analysis shows that 4B agents already possess surprisingly strong performance potential, highlighting both the deployment promise of small models and the value of test-time scaling in this setting. We release our models, code, and key recipes to support reproducible research on edge-scale deep research agents.

DR-Venus: Hacia Agentes de Investigación Profunda de Vanguardia a Escala de Borde con Solo 10K Datos Abiertos

DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

Resumen

Support