daVinci-Dev: Treinamento Médio Nativo de Agente para Engenharia de Software

Resumo

Recentemente, a fronteira das capacidades dos Modelos de Linguagem de Grande Porte (LLMs) deslocou-se da geração de código em tarefas únicas para a engenharia de software agentiva – um paradigma em que os modelos navegam, editam e testam repositórios complexos de forma autónoma. Embora os métodos de pós-treinamento tenham se tornado a abordagem *de facto* para agentes de código, o **pré-treinamento agentivo** – o pré-treinamento (PT) em dados de larga escala que espelham fluxos de trabalho agentivos autênticos – permanece criticamente subexplorado devido aos substanciais requisitos de recursos, apesar de oferecer um caminho mais escalável para incutir comportamentos agentivos fundamentais do que depender exclusivamente de aprendizagem por reforço, que é dispendiosa. Um desafio central para concretizar um pré-treinamento agentivo eficaz é o desajuste de distribuição entre os dados de treino estáticos e o ambiente dinâmico e rico em *feedback* do desenvolvimento real. Para enfrentar este problema, apresentamos um estudo sistemático sobre o pré-treinamento agentivo, estabelecendo tanto os princípios de síntese de dados como a metodologia de treino para um desenvolvimento eficaz de agentes em escala. Central à nossa abordagem estão os **dados nativamente agentivos** – supervisão composta por dois tipos complementares de trajetórias: **trajetórias contextualmente nativas**, que preservam o fluxo completo de informação que um agente experiencia, oferecendo ampla cobertura e diversidade; e **trajetórias ambientalmente nativas**, recolhidas a partir de repositórios executáveis onde as observações resultam de invocações reais de ferramentas e execuções de testes, proporcionando profundidade e autenticidade interativa. Verificamos as capacidades agentivas do modelo no `SWE-Bench Verified`. Demonstramos a nossa superioridade sobre a receita anterior de pré-treinamento em engenharia de software aberta `Kimi-Dev` sob duas configurações de pós-treinamento com um modelo base alinhado e um *scaffold* agentivo, utilizando menos de metade dos *tokens* de pré-treinamento (73,1B). Para além da vantagem relativa, os nossos modelos de melhor desempenho, de 32B e 72B, atingem taxas de resolução de **56,1%** e **58,5%**, respetivamente, que são ...

English

Recently, the frontier of Large Language Model (LLM) capabilities has shifted from single-turn code generation to agentic software engineering-a paradigm where models autonomously navigate, edit, and test complex repositories. While post-training methods have become the de facto approach for code agents, **agentic mid-training**-mid-training (MT) on large-scale data that mirrors authentic agentic workflows-remains critically underexplored due to substantial resource requirements, despite offering a more scalable path to instilling foundational agentic behaviors than relying solely on expensive reinforcement learning. A central challenge in realizing effective agentic mid-training is the distribution mismatch between static training data and the dynamic, feedback-rich environment of real development. To address this, we present a systematic study of agentic mid-training, establishing both the data synthesis principles and training methodology for effective agent development at scale. Central to our approach is **agent-native data**-supervision comprising two complementary types of trajectories: **contextually-native trajectories** that preserve the complete information flow an agent experiences, offering broad coverage and diversity; and **environmentally-native trajectories** collected from executable repositories where observations stem from actual tool invocations and test executions, providing depth and interaction authenticity. We verify the model's agentic capabilities on `SWE-Bench Verified`. We demonstrate our superiority over the previous open software engineering mid-training recipe `Kimi-Dev` under two post-training settings with an aligned base model and agentic scaffold, while using less than half mid-training tokens (73.1B). Besides relative advantage, our best performing 32B and 72B models achieve **56.1%** and **58.5%** resolution rates, respectively, which are ...

daVinci-Dev: Treinamento Médio Nativo de Agente para Engenharia de Software

daVinci-Dev: Agent-native Mid-training for Software Engineering

Resumo

Support