daVinci-Dev: Treinamento Médio Nativo de Agente para Engenharia de Software
daVinci-Dev: Agent-native Mid-training for Software Engineering
January 26, 2026
Autores: Ji Zeng, Dayuan Fu, Tiantian Mi, Yumin Zhuang, Yaxing Huang, Xuefeng Li, Lyumanshan Ye, Muhang Xie, Qishuo Hua, Zhen Huang, Mohan Jiang, Hanning Wang, Jifan Lin, Yang Xiao, Jie Sun, Yunze Wu, Pengfei Liu
cs.AI
Resumo
Recentemente, a fronteira das capacidades dos Modelos de Linguagem de Grande Porte (LLMs) deslocou-se da geração de código em tarefas únicas para a engenharia de software agentiva – um paradigma em que os modelos navegam, editam e testam repositórios complexos de forma autónoma. Embora os métodos de pós-treinamento tenham se tornado a abordagem *de facto* para agentes de código, o **pré-treinamento agentivo** – o pré-treinamento (PT) em dados de larga escala que espelham fluxos de trabalho agentivos autênticos – permanece criticamente subexplorado devido aos substanciais requisitos de recursos, apesar de oferecer um caminho mais escalável para incutir comportamentos agentivos fundamentais do que depender exclusivamente de aprendizagem por reforço, que é dispendiosa. Um desafio central para concretizar um pré-treinamento agentivo eficaz é o desajuste de distribuição entre os dados de treino estáticos e o ambiente dinâmico e rico em *feedback* do desenvolvimento real. Para enfrentar este problema, apresentamos um estudo sistemático sobre o pré-treinamento agentivo, estabelecendo tanto os princípios de síntese de dados como a metodologia de treino para um desenvolvimento eficaz de agentes em escala. Central à nossa abordagem estão os **dados nativamente agentivos** – supervisão composta por dois tipos complementares de trajetórias: **trajetórias contextualmente nativas**, que preservam o fluxo completo de informação que um agente experiencia, oferecendo ampla cobertura e diversidade; e **trajetórias ambientalmente nativas**, recolhidas a partir de repositórios executáveis onde as observações resultam de invocações reais de ferramentas e execuções de testes, proporcionando profundidade e autenticidade interativa. Verificamos as capacidades agentivas do modelo no `SWE-Bench Verified`. Demonstramos a nossa superioridade sobre a receita anterior de pré-treinamento em engenharia de software aberta `Kimi-Dev` sob duas configurações de pós-treinamento com um modelo base alinhado e um *scaffold* agentivo, utilizando menos de metade dos *tokens* de pré-treinamento (73,1B). Para além da vantagem relativa, os nossos modelos de melhor desempenho, de 32B e 72B, atingem taxas de resolução de **56,1%** e **58,5%**, respetivamente, que são ...
English
Recently, the frontier of Large Language Model (LLM) capabilities has shifted from single-turn code generation to agentic software engineering-a paradigm where models autonomously navigate, edit, and test complex repositories. While post-training methods have become the de facto approach for code agents, **agentic mid-training**-mid-training (MT) on large-scale data that mirrors authentic agentic workflows-remains critically underexplored due to substantial resource requirements, despite offering a more scalable path to instilling foundational agentic behaviors than relying solely on expensive reinforcement learning. A central challenge in realizing effective agentic mid-training is the distribution mismatch between static training data and the dynamic, feedback-rich environment of real development. To address this, we present a systematic study of agentic mid-training, establishing both the data synthesis principles and training methodology for effective agent development at scale. Central to our approach is **agent-native data**-supervision comprising two complementary types of trajectories: **contextually-native trajectories** that preserve the complete information flow an agent experiences, offering broad coverage and diversity; and **environmentally-native trajectories** collected from executable repositories where observations stem from actual tool invocations and test executions, providing depth and interaction authenticity. We verify the model's agentic capabilities on `SWE-Bench Verified`. We demonstrate our superiority over the previous open software engineering mid-training recipe `Kimi-Dev` under two post-training settings with an aligned base model and agentic scaffold, while using less than half mid-training tokens (73.1B). Besides relative advantage, our best performing 32B and 72B models achieve **56.1%** and **58.5%** resolution rates, respectively, which are ...