DR-Venus : Vers des agents de recherche approfondie à l'échelle edge de pointe avec seulement 10 000 données ouvertes
DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data
April 21, 2026
Auteurs: Venus Team, Sunhao Dai, Yong Deng, Jinzhen Lin, Yusheng Song, Guoqing Wang, Xiaofeng Wu, Yuqi Zhou, Shuo Yang, Zhenzhe Ying, Zhanwei Zhang, Changhua Meng, Weiqiang Wang
cs.AI
Résumé
Les agents de recherche approfondie à l'échelle périphérique, basés sur de petits modèles de langage, sont attractifs pour le déploiement en conditions réelles en raison de leurs avantages en matière de coût, de latence et de confidentialité. Dans ce travail, nous étudions comment entraîner un agent de recherche approfondie petit mais performant avec des données ouvertes limitées, en améliorant à la fois la qualité des données et leur utilisation. Nous présentons DR-Venus, un agent de recherche approfondie de pointe de 4 milliards de paramètres conçu pour un déploiement à l'échelle périphérique, entièrement construit sur des données ouvertes. Notre méthode d'entraînement comporte deux étapes. Dans la première étape, nous utilisons un fine-tuning supervisé (SFT) agentique pour établir des capacités agentiques de base, en combinant un nettoyage strict des données avec un rééchantillonnage des trajectoires à long horizon pour améliorer la qualité et l'utilisation des données. Dans la deuxième étape, nous appliquons un apprentissage par renforcement (RL) agentique pour améliorer davantage la fiabilité d'exécution sur les tâches de recherche approfondie à long horizon. Pour rendre le RL efficace pour les petits agents dans ce contexte, nous nous appuyons sur IGPO et concevons des récompenses au niveau du tour basées sur le gain d'information et une régularisation sensible au format, améliorant ainsi la densité de supervision et l'attribution de crédit par tour. Entièrement construit sur environ 10 000 données ouvertes, DR-Venus-4B surpasse significativement les modèles agentiques antérieurs de moins de 9 milliards de paramètres sur plusieurs benchmarks de recherche approfondie, tout en réduisant l'écart avec des systèmes beaucoup plus grands de la classe des 30 milliards. Notre analyse approfondie montre que les agents de 4 milliards de paramètres possèdent déjà un potentiel de performance étonnamment fort, soulignant à la fois la promesse de déploiement des petits modèles et la valeur de la mise à l'échelle au moment du test dans ce contexte. Nous publions nos modèles, notre code et nos méthodes clés pour soutenir la recherche reproductible sur les agents de recherche approfondie à l'échelle périphérique.
English
Edge-scale deep research agents based on small language models are attractive for real-world deployment due to their advantages in cost, latency, and privacy. In this work, we study how to train a strong small deep research agent under limited open-data by improving both data quality and data utilization. We present DR-Venus, a frontier 4B deep research agent for edge-scale deployment, built entirely on open data. Our training recipe consists of two stages. In the first stage, we use agentic supervised fine-tuning (SFT) to establish basic agentic capability, combining strict data cleaning with resampling of long-horizon trajectories to improve data quality and utilization. In the second stage, we apply agentic reinforcement learning (RL) to further improve execution reliability on long-horizon deep research tasks. To make RL effective for small agents in this setting, we build on IGPO and design turn-level rewards based on information gain and format-aware regularization, thereby enhancing supervision density and turn-level credit assignment. Built entirely on roughly 10K open-data, DR-Venus-4B significantly outperforms prior agentic models under 9B parameters on multiple deep research benchmarks, while also narrowing the gap to much larger 30B-class systems. Our further analysis shows that 4B agents already possess surprisingly strong performance potential, highlighting both the deployment promise of small models and the value of test-time scaling in this setting. We release our models, code, and key recipes to support reproducible research on edge-scale deep research agents.