DR-Venus: Rumo a Agentes de Pesquisa Profunda de Última Geração em Escala de Borda com Apenas 10K Dados Abertos

Resumo

Agentes de pesquisa profunda em escala de borda, baseados em pequenos modelos de linguagem, são atraentes para implantação no mundo real devido às suas vantagens em custo, latência e privacidade. Neste trabalho, estudamos como treinar um agente de pesquisa profunda pequeno, mas robusto, com dados abertos limitados, melhorando tanto a qualidade quanto a utilização dos dados. Apresentamos o DR-Venus, um agente de pesquisa profunda de ponta com 4B de parâmetros para implantação em escala de borda, construído inteiramente com dados abertos. Nossa receita de treinamento consiste em dois estágios. No primeiro estágio, utilizamos *fine-tuning* supervisionado agencial (SFT) para estabelecer capacidades agentiais básicas, combinando uma limpeza rigorosa de dados com a reamostragem de trajetórias de longo horizonte para melhorar a qualidade e a utilização dos dados. No segundo estágio, aplicamos aprendizado por reforço agencial (RL) para melhorar ainda mais a confiabilidade de execução em tarefas de pesquisa profunda de longo horizonte. Para tornar o RL eficaz para pequenos agentes neste contexto, baseamo-nos no IGPO e projetamos recompensas em nível de turno baseadas no ganho de informação e na regularização consciente do formato, aumentando assim a densidade da supervisão e a atribuição de crédito por turno. Construído inteiramente com aproximadamente 10 mil dados abertos, o DR-Venus-4B supera significativamente os modelos agentiais anteriores com menos de 9B de parâmetros em vários benchmarks de pesquisa profunda, ao mesmo tempo que reduz a lacuna para sistemas muito maiores da classe de 30B. Nossa análise adicional mostra que agentes de 4B já possuem um potencial de desempenho surpreendentemente forte, destacando tanto a promessa de implantação de modelos pequenos quanto o valor do dimensionamento no momento do teste neste contexto. Disponibilizamos nossos modelos, código e receitas principais para apoiar pesquisas reproduzíveis em agentes de pesquisa profunda em escala de borda.

English

Edge-scale deep research agents based on small language models are attractive for real-world deployment due to their advantages in cost, latency, and privacy. In this work, we study how to train a strong small deep research agent under limited open-data by improving both data quality and data utilization. We present DR-Venus, a frontier 4B deep research agent for edge-scale deployment, built entirely on open data. Our training recipe consists of two stages. In the first stage, we use agentic supervised fine-tuning (SFT) to establish basic agentic capability, combining strict data cleaning with resampling of long-horizon trajectories to improve data quality and utilization. In the second stage, we apply agentic reinforcement learning (RL) to further improve execution reliability on long-horizon deep research tasks. To make RL effective for small agents in this setting, we build on IGPO and design turn-level rewards based on information gain and format-aware regularization, thereby enhancing supervision density and turn-level credit assignment. Built entirely on roughly 10K open-data, DR-Venus-4B significantly outperforms prior agentic models under 9B parameters on multiple deep research benchmarks, while also narrowing the gap to much larger 30B-class systems. Our further analysis shows that 4B agents already possess surprisingly strong performance potential, highlighting both the deployment promise of small models and the value of test-time scaling in this setting. We release our models, code, and key recipes to support reproducible research on edge-scale deep research agents.

DR-Venus: Rumo a Agentes de Pesquisa Profunda de Última Geração em Escala de Borda com Apenas 10K Dados Abertos

DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

Resumo

Support