daVinci-Dev: Addestramento Mid-training Orientato agli Agenti per l'Ingegneria del Software

Abstract

Recentemente, la frontiera delle capacità dei Large Language Model (LLM) si è spostata dalla generazione di codice a singolo turno all'ingegneria del software agentiva, un paradigma in cui i modelli navigano, modificano e testano in modo autonomo repository complessi. Sebbene i metodi di post-addestramento siano diventati l'approccio de facto per gli agenti di codice, l'**agentic mid-training** (MT) su dati su larga scala che riflettono autentici flussi di lavoro agentivi rimane criticamente poco esplorato a causa dei notevoli requisiti di risorse, nonostante offra un percorso più scalabile per instillare comportamenti agentivi fondamentali rispetto all'affidarsi esclusivamente a costosi apprendimenti per rinforzo. Una sfida centrale nel realizzare un agentic mid-training efficace è la discrepanza distributiva tra i dati di addestramento statici e l'ambiente dinamico e ricco di feedback dello sviluppo reale. Per affrontare ciò, presentiamo uno studio sistematico sull'agentic mid-training, stabilendo sia i principi di sintesi dei dati che la metodologia di addestramento per uno sviluppo efficace degli agenti su larga scala. Centrale nel nostro approccio sono i **dati agent-native** - una supervisione composta da due tipi complementari di traiettorie: **traiettorie contestualmente native** che preservano il flusso completo di informazioni che un agente esperisce, offrendo ampia copertura e diversità; e **traiettorie ambientalmente native** raccolte da repository eseguibili in cui le osservazioni derivano da effettive invocazioni di strumenti ed esecuzioni di test, fornendo profondità e autenticità interattiva. Verifichiamo le capacità agentive del modello su `SWE-Bench Verified`. Dimostriamo la nostra superiorità rispetto alla precedente ricetta open di mid-training per l'ingegneria del software `Kimi-Dev` in due impostazioni di post-addestramento con un modello base allineato e un'impalcatura agentiva, pur utilizzando meno della metà dei token di mid-training (73,1 miliardi). Oltre al vantaggio relativo, i nostri modelli migliori da 32B e 72B raggiungono rispettivamente tassi di risoluzione del **56,1%** e del **58,5%**, che sono...

English

Recently, the frontier of Large Language Model (LLM) capabilities has shifted from single-turn code generation to agentic software engineering-a paradigm where models autonomously navigate, edit, and test complex repositories. While post-training methods have become the de facto approach for code agents, **agentic mid-training**-mid-training (MT) on large-scale data that mirrors authentic agentic workflows-remains critically underexplored due to substantial resource requirements, despite offering a more scalable path to instilling foundational agentic behaviors than relying solely on expensive reinforcement learning. A central challenge in realizing effective agentic mid-training is the distribution mismatch between static training data and the dynamic, feedback-rich environment of real development. To address this, we present a systematic study of agentic mid-training, establishing both the data synthesis principles and training methodology for effective agent development at scale. Central to our approach is **agent-native data**-supervision comprising two complementary types of trajectories: **contextually-native trajectories** that preserve the complete information flow an agent experiences, offering broad coverage and diversity; and **environmentally-native trajectories** collected from executable repositories where observations stem from actual tool invocations and test executions, providing depth and interaction authenticity. We verify the model's agentic capabilities on `SWE-Bench Verified`. We demonstrate our superiority over the previous open software engineering mid-training recipe `Kimi-Dev` under two post-training settings with an aligned base model and agentic scaffold, while using less than half mid-training tokens (73.1B). Besides relative advantage, our best performing 32B and 72B models achieve **56.1%** and **58.5%** resolution rates, respectively, which are ...

daVinci-Dev: Addestramento Mid-training Orientato agli Agenti per l'Ingegneria del Software

daVinci-Dev: Agent-native Mid-training for Software Engineering

Abstract

Support