ChatPaper.aiChatPaper

DR-Venus: 단 10K 오픈 데이터로 프론티어 에지 스케일 딥 리서치 에이전트 구현을 향하여

DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

April 21, 2026
저자: Venus Team, Sunhao Dai, Yong Deng, Jinzhen Lin, Yusheng Song, Guoqing Wang, Xiaofeng Wu, Yuqi Zhou, Shuo Yang, Zhenzhe Ying, Zhanwei Zhang, Changhua Meng, Weiqiang Wang
cs.AI

초록

에지 규모의 소형 언어 모델 기반 심층 연구 에이전트는 비용, 지연 시간, 개인 정보 보호 측면에서의 장점으로 인해 실제 환경 배포에 매력적입니다. 본 연구에서는 제한된 오픈 데이터 환경에서 데이터 품질과 데이터 활용도를 모두 개선하여 강력한 소형 심층 연구 에이전트를 훈련하는 방법을 연구합니다. 우리는 완전히 오픈 데이터로 구축된, 에지 규모 배포를 위한 최첨단 4B 규모 심층 연구 에이전트인 DR-Venus를 제시합니다. 우리의 훈련 방법론은 두 단계로 구성됩니다. 첫 번째 단계에서는 에이전트 특화 지도 미세 조정(SFT)을 사용하여 기본적인 에이전트 능력을 확립하며, 엄격한 데이터 정제와 장기 과업 궤적 재샘플링을 결합하여 데이터 품질과 활용도를 향상시킵니다. 두 번째 단계에서는 에이전트 특화 강화 학습(RL)을 적용하여 장기 심층 연구 과업에 대한 실행 신뢰성을 더욱 향상시킵니다. 이 설정에서 소형 에이전트에게 RL을 효과적으로 적용하기 위해 우리는 IGPO를 기반으로 정보 획득 및 형식 인식 정규화를 바탕으로 한 턴 단위 보상을 설계하여 감독 밀도와 턴 단위 신용 할당을 강화합니다. 약 10K 개의 오픈 데이터로 전적으로 구축된 DR-Venus-4B는 여러 심층 연구 벤치마크에서 9B 매개변수 미만의 기존 에이전트 모델들을 크게 능가하며, 훨씬更大的 규모인 30B급 시스템과의 격차도 좁혔습니다. 우리의 추가 분석에 따르면 4B 규모 에이전트조차도 놀라울 정도로 강력한 성능 잠재력을 지니고 있으며, 이는 소형 모델의 배포 가능성과 이러한 설정에서의 테스트 시간 스케일링의 가치를 모두 강조합니다. 우리는 재현 가능한 에지 규모 심층 연구 에이전트 연구를 지원하기 위해 모델, 코드 및 핵심 방법론을 공개합니다.
English
Edge-scale deep research agents based on small language models are attractive for real-world deployment due to their advantages in cost, latency, and privacy. In this work, we study how to train a strong small deep research agent under limited open-data by improving both data quality and data utilization. We present DR-Venus, a frontier 4B deep research agent for edge-scale deployment, built entirely on open data. Our training recipe consists of two stages. In the first stage, we use agentic supervised fine-tuning (SFT) to establish basic agentic capability, combining strict data cleaning with resampling of long-horizon trajectories to improve data quality and utilization. In the second stage, we apply agentic reinforcement learning (RL) to further improve execution reliability on long-horizon deep research tasks. To make RL effective for small agents in this setting, we build on IGPO and design turn-level rewards based on information gain and format-aware regularization, thereby enhancing supervision density and turn-level credit assignment. Built entirely on roughly 10K open-data, DR-Venus-4B significantly outperforms prior agentic models under 9B parameters on multiple deep research benchmarks, while also narrowing the gap to much larger 30B-class systems. Our further analysis shows that 4B agents already possess surprisingly strong performance potential, highlighting both the deployment promise of small models and the value of test-time scaling in this setting. We release our models, code, and key recipes to support reproducible research on edge-scale deep research agents.
PDF382April 24, 2026