ChatPaper.aiChatPaper

DR-Venus: たった10Kのオープンデータで最先端エッジスケール深層研究エージェントを目指して

DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

April 21, 2026
著者: Venus Team, Sunhao Dai, Yong Deng, Jinzhen Lin, Yusheng Song, Guoqing Wang, Xiaofeng Wu, Yuqi Zhou, Shuo Yang, Zhenzhe Ying, Zhanwei Zhang, Changhua Meng, Weiqiang Wang
cs.AI

要旨

エッジスケールのディープリサーチエージェントは、コスト、レイテンシ、プライバシーの面で優位性があるため、小規模言語モデルに基づく実世界への展開が注目されています。本研究では、限られたオープンデータ条件下で、データ品質とデータ活用の両方を改善することで、強力な小規模ディープリサーチエージェントを如何に訓練するかを検討します。我々は、オープンデータのみを用いて構築された、エッジスケール展開のためのフロンティア4Bパラメータモデル「DR-Venus」を提案します。訓練レシピは2段階からなります。第1段階では、エージェント機能の基盤を確立するため、エージェント的教師ありファインチューニング(SFT)を適用し、厳格なデータクリーニングと長期的軌道の再サンプリングを組み合わせることで、データ品質と活用効率を向上させます。第2段階では、エージェント的強化学習(RL)を適用し、長期的なディープリサーチタスクにおける実行信頼性をさらに高めます。この設定で小規模エージェントに対してRLを効果的に機能させるため、我々はIGPOを拡張し、情報利得とフォーマット認識正則化に基づくターンレベルの報酬を設計し、監督密度とターンレベルの信用割り当てを強化します。約1万件のオープンデータのみで構築されたDR-Venus-4Bは、複数のディープリサーチベンチマークにおいて、9Bパラメータ未満の従来のエージェントモデルを大幅に上回り、さらに大規模な30Bクラスシステムとの差を縮めています。追加分析により、4Bエージェントが驚くほど強力な性能ポテンシャルを既に有していることが示され、小規模モデルの展開可能性と、この設定におけるテスト時スケーリングの価値の両方が浮き彫りになりました。再現可能な研究を促進するため、モデル、コード、および主要なレシピを公開します。
English
Edge-scale deep research agents based on small language models are attractive for real-world deployment due to their advantages in cost, latency, and privacy. In this work, we study how to train a strong small deep research agent under limited open-data by improving both data quality and data utilization. We present DR-Venus, a frontier 4B deep research agent for edge-scale deployment, built entirely on open data. Our training recipe consists of two stages. In the first stage, we use agentic supervised fine-tuning (SFT) to establish basic agentic capability, combining strict data cleaning with resampling of long-horizon trajectories to improve data quality and utilization. In the second stage, we apply agentic reinforcement learning (RL) to further improve execution reliability on long-horizon deep research tasks. To make RL effective for small agents in this setting, we build on IGPO and design turn-level rewards based on information gain and format-aware regularization, thereby enhancing supervision density and turn-level credit assignment. Built entirely on roughly 10K open-data, DR-Venus-4B significantly outperforms prior agentic models under 9B parameters on multiple deep research benchmarks, while also narrowing the gap to much larger 30B-class systems. Our further analysis shows that 4B agents already possess surprisingly strong performance potential, highlighting both the deployment promise of small models and the value of test-time scaling in this setting. We release our models, code, and key recipes to support reproducible research on edge-scale deep research agents.
PDF382April 24, 2026