DR-Venus: Op Weg naar Grensverleggende Deep Research Agents op Edge-Schaal met Slechts 10K Open Data
DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data
April 21, 2026
Auteurs: Venus Team, Sunhao Dai, Yong Deng, Jinzhen Lin, Yusheng Song, Guoqing Wang, Xiaofeng Wu, Yuqi Zhou, Shuo Yang, Zhenzhe Ying, Zhanwei Zhang, Changhua Meng, Weiqiang Wang
cs.AI
Samenvatting
Edge-scale deep research agents gebaseerd op kleine taalmodellen zijn aantrekkelijk voor implementatie in de praktijk vanwege hun voordelen op het gebied van kosten, latentie en privacy. In dit werk onderzoeken we hoe we een sterke kleine deep research agent kunnen trainen met beperkte open data door zowel de datakwaliteit als het datagebruik te verbeteren. We presenteren DR-Venus, een grensverleggende 4B deep research agent voor edge-scale implementatie, volledig gebouwd op open data. Ons trainingsrecept bestaat uit twee fasen. In de eerste fase gebruiken we agentic supervised fine-tuning (SFT) om een basale agentische capaciteit op te bouwen, waarbij we strikte datareiniging combineren met hermonstering van trajecten met een lange horizon om de datakwaliteit en het datagebruik te verbeteren. In de tweede fase passen we agentic reinforcement learning (RL) toe om de uitvoeringsbetrouwbaarheid bij deep research taken met een lange horizon verder te verbeteren. Om RL effectief te maken voor kleine agents in deze setting, bouwen we voort op IGPO en ontwerpen we beloningen op turn-niveau gebaseerd op informatieverwerving en formaatbewuste regularisatie, waardoor de dichtheid van supervisie en toewijzing van credits op turn-niveau worden verbeterd. Volledig gebouwd op ongeveer 10K open data, presteert DR-Venus-4B aanzienlijk beter dan eerdere agentische modellen met minder dan 9B parameters op meerdere deep research benchmarks, terwijl het ook de kloof met veel grotere 30B-class systemen verkleint. Onze verdere analyse toont aan dat 4B agents al een verrassend sterk prestatiepotentieel bezitten, wat zowel de implementatiebelofte van kleine modellen als de waarde van test-time scaling in deze setting benadrukt. We geven onze modellen, code en belangrijke recepten vrij om reproduceerbaar onderzoek naar edge-scale deep research agents te ondersteunen.
English
Edge-scale deep research agents based on small language models are attractive for real-world deployment due to their advantages in cost, latency, and privacy. In this work, we study how to train a strong small deep research agent under limited open-data by improving both data quality and data utilization. We present DR-Venus, a frontier 4B deep research agent for edge-scale deployment, built entirely on open data. Our training recipe consists of two stages. In the first stage, we use agentic supervised fine-tuning (SFT) to establish basic agentic capability, combining strict data cleaning with resampling of long-horizon trajectories to improve data quality and utilization. In the second stage, we apply agentic reinforcement learning (RL) to further improve execution reliability on long-horizon deep research tasks. To make RL effective for small agents in this setting, we build on IGPO and design turn-level rewards based on information gain and format-aware regularization, thereby enhancing supervision density and turn-level credit assignment. Built entirely on roughly 10K open-data, DR-Venus-4B significantly outperforms prior agentic models under 9B parameters on multiple deep research benchmarks, while also narrowing the gap to much larger 30B-class systems. Our further analysis shows that 4B agents already possess surprisingly strong performance potential, highlighting both the deployment promise of small models and the value of test-time scaling in this setting. We release our models, code, and key recipes to support reproducible research on edge-scale deep research agents.