DR-Venus: Auf dem Weg zu fortschrittlichen Deep-Research-Agents im Edge-Maßstab mit nur 10.000 offenen Daten
DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data
April 21, 2026
Autoren: Venus Team, Sunhao Dai, Yong Deng, Jinzhen Lin, Yusheng Song, Guoqing Wang, Xiaofeng Wu, Yuqi Zhou, Shuo Yang, Zhenzhe Ying, Zhanwei Zhang, Changhua Meng, Weiqiang Wang
cs.AI
Zusammenfassung
Deep-Research-Agenten auf Edge-Ebene, die auf kleinen Sprachmodellen basieren, sind aufgrund ihrer Vorteile bei Kosten, Latenz und Datenschutz für den realen Einsatz attraktiv. In dieser Arbeit untersuchen wir, wie unter begrenzten Open-Data-Bedingungen ein starker kleiner Deep-Research-Agent trainiert werden kann, indem sowohl die Datenqualität als auch die Datennutzung verbessert werden. Wir stellen DR-Venus vor, einen fortschrittlichen 4B-Deep-Research-Agenten für den Edge-Einsatz, der vollständig auf offenen Daten basiert. Unser Trainingsansatz umfasst zwei Stufen. In der ersten Stufe nutzen wir agentisches Supervised Fine-Tuning (SFT), um grundlegende agentische Fähigkeiten zu etablieren, wobei strenge Datenbereinigung mit einer Neustichprobe von langen Trajektorien kombiniert wird, um Datenqualität und -nutzung zu verbessern. In der zweiten Stufe wenden wir agentisches Reinforcement Learning (RL) an, um die Ausführungszuverlässigkeit bei langen Deep-Research-Aufgaben weiter zu verbessern. Um RL in diesem Kontext für kleine Agenten wirksam zu machen, bauen wir auf IGPO auf und entwerfen belohnungen auf Turn-Ebene basierend auf Informationsgewinn und formatbewusster Regularisierung, wodurch die Überwachungsdichte und die Zuordnung von Belohnungen auf Turn-Ebene verbessert werden. Vollständig auf etwa 10.000 Open-Daten aufgebaut, übertrifft DR-Venus-4B frühere agentische Modelle mit unter 9B Parametern in mehreren Deep-Research-Benchmarks deutlich und verringert gleichzeitig die Lücke zu deutlich größeren 30B-Systemen. Unsere weitere Analyse zeigt, dass 4B-Agenten bereits überraschend starkes Leistungspotenzial besitzen, was sowohl das Einsatzversprechen kleiner Modelle als auch den Wert von Skalierung zur Testzeit in diesem Kontext unterstreicht. Wir veröffentlichen unsere Modelle, Code und zentrale Methoden, um reproduzierbare Forschung zu Edge-Deep-Research-Agenten zu unterstützen.
English
Edge-scale deep research agents based on small language models are attractive for real-world deployment due to their advantages in cost, latency, and privacy. In this work, we study how to train a strong small deep research agent under limited open-data by improving both data quality and data utilization. We present DR-Venus, a frontier 4B deep research agent for edge-scale deployment, built entirely on open data. Our training recipe consists of two stages. In the first stage, we use agentic supervised fine-tuning (SFT) to establish basic agentic capability, combining strict data cleaning with resampling of long-horizon trajectories to improve data quality and utilization. In the second stage, we apply agentic reinforcement learning (RL) to further improve execution reliability on long-horizon deep research tasks. To make RL effective for small agents in this setting, we build on IGPO and design turn-level rewards based on information gain and format-aware regularization, thereby enhancing supervision density and turn-level credit assignment. Built entirely on roughly 10K open-data, DR-Venus-4B significantly outperforms prior agentic models under 9B parameters on multiple deep research benchmarks, while also narrowing the gap to much larger 30B-class systems. Our further analysis shows that 4B agents already possess surprisingly strong performance potential, highlighting both the deployment promise of small models and the value of test-time scaling in this setting. We release our models, code, and key recipes to support reproducible research on edge-scale deep research agents.