DR-Venus: Verso Agenti di Ricerca Profonda all'Avanguardia su Scala Edge con Soli 10K Dati Aperti
DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data
April 21, 2026
Autori: Venus Team, Sunhao Dai, Yong Deng, Jinzhen Lin, Yusheng Song, Guoqing Wang, Xiaofeng Wu, Yuqi Zhou, Shuo Yang, Zhenzhe Ying, Zhanwei Zhang, Changhua Meng, Weiqiang Wang
cs.AI
Abstract
Gli agenti di ricerca approfondita su scala edge basati su piccoli modelli linguistici sono attraenti per il deployment nel mondo reale grazie ai loro vantaggi in termini di costi, latenza e privacy. In questo lavoro, studiamo come addestrare un agente di ricerca approfondita piccolo ma potente con dati aperti limitati, migliorando sia la qualità che l'utilizzo dei dati. Presentiamo DR-Venus, un agente di ricerca approfondita all'avanguardia da 4B parametri per il deployment su scala edge, interamente costruito su dati aperti. La nostra procedura di addestramento si articola in due fasi. Nella prima fase, utilizziamo il fine-tuning supervisionato agentico (SFT) per stabilire capacità agentiche di base, combinando una rigorosa pulizia dei dati con un ricampionamento di traiettorie a lungo orizzonte per migliorare qualità e utilizzo dei dati. Nella seconda fase, applichiamo l'apprendimento per rinforzo agentico (RL) per migliorare ulteriormente l'affidabilità di esecuzione su compiti di ricerca approfondita a lungo orizzonte. Per rendere efficace il RL per piccoli agenti in questo contesto, ci basiamo su IGPO e progettiamo ricompune a livello di turno basate sul guadagno informativo e sulla regolarizzazione aware del formato, migliorando così la densità della supervisione e l'assegnazione del credito a livello di turno. Costruito interamente su circa 10K dati aperti, DR-Venus-4B supera significativamente i precedenti modelli agentici sotto i 9B parametri su molteplici benchmark di ricerca approfondita, riducendo allo stesso tempo il divario con sistemi molto più grandi della classe 30B. La nostra analisi aggiuntiva mostra che agenti da 4B possiedono già un potenziale di performance sorprendentemente forte, evidenziando sia la promessa di deployment dei piccoli modelli che il valore dello scaling al tempo di test in questo contesto. Rilasciamo i nostri modelli, il codice e le procedure chiave per supportare la ricerca riproducibile sugli agenti di ricerca approfondita su scala edge.
English
Edge-scale deep research agents based on small language models are attractive for real-world deployment due to their advantages in cost, latency, and privacy. In this work, we study how to train a strong small deep research agent under limited open-data by improving both data quality and data utilization. We present DR-Venus, a frontier 4B deep research agent for edge-scale deployment, built entirely on open data. Our training recipe consists of two stages. In the first stage, we use agentic supervised fine-tuning (SFT) to establish basic agentic capability, combining strict data cleaning with resampling of long-horizon trajectories to improve data quality and utilization. In the second stage, we apply agentic reinforcement learning (RL) to further improve execution reliability on long-horizon deep research tasks. To make RL effective for small agents in this setting, we build on IGPO and design turn-level rewards based on information gain and format-aware regularization, thereby enhancing supervision density and turn-level credit assignment. Built entirely on roughly 10K open-data, DR-Venus-4B significantly outperforms prior agentic models under 9B parameters on multiple deep research benchmarks, while also narrowing the gap to much larger 30B-class systems. Our further analysis shows that 4B agents already possess surprisingly strong performance potential, highlighting both the deployment promise of small models and the value of test-time scaling in this setting. We release our models, code, and key recipes to support reproducible research on edge-scale deep research agents.