daVinci-Dev: Addestramento Mid-training Orientato agli Agenti per l'Ingegneria del Software
daVinci-Dev: Agent-native Mid-training for Software Engineering
January 26, 2026
Autori: Ji Zeng, Dayuan Fu, Tiantian Mi, Yumin Zhuang, Yaxing Huang, Xuefeng Li, Lyumanshan Ye, Muhang Xie, Qishuo Hua, Zhen Huang, Mohan Jiang, Hanning Wang, Jifan Lin, Yang Xiao, Jie Sun, Yunze Wu, Pengfei Liu
cs.AI
Abstract
Recentemente, la frontiera delle capacità dei Large Language Model (LLM) si è spostata dalla generazione di codice a singolo turno all'ingegneria del software agentiva, un paradigma in cui i modelli navigano, modificano e testano in modo autonomo repository complessi. Sebbene i metodi di post-addestramento siano diventati l'approccio de facto per gli agenti di codice, l'**agentic mid-training** (MT) su dati su larga scala che riflettono autentici flussi di lavoro agentivi rimane criticamente poco esplorato a causa dei notevoli requisiti di risorse, nonostante offra un percorso più scalabile per instillare comportamenti agentivi fondamentali rispetto all'affidarsi esclusivamente a costosi apprendimenti per rinforzo. Una sfida centrale nel realizzare un agentic mid-training efficace è la discrepanza distributiva tra i dati di addestramento statici e l'ambiente dinamico e ricco di feedback dello sviluppo reale. Per affrontare ciò, presentiamo uno studio sistematico sull'agentic mid-training, stabilendo sia i principi di sintesi dei dati che la metodologia di addestramento per uno sviluppo efficace degli agenti su larga scala. Centrale nel nostro approccio sono i **dati agent-native** - una supervisione composta da due tipi complementari di traiettorie: **traiettorie contestualmente native** che preservano il flusso completo di informazioni che un agente esperisce, offrendo ampia copertura e diversità; e **traiettorie ambientalmente native** raccolte da repository eseguibili in cui le osservazioni derivano da effettive invocazioni di strumenti ed esecuzioni di test, fornendo profondità e autenticità interattiva. Verifichiamo le capacità agentive del modello su `SWE-Bench Verified`. Dimostriamo la nostra superiorità rispetto alla precedente ricetta open di mid-training per l'ingegneria del software `Kimi-Dev` in due impostazioni di post-addestramento con un modello base allineato e un'impalcatura agentiva, pur utilizzando meno della metà dei token di mid-training (73,1 miliardi). Oltre al vantaggio relativo, i nostri modelli migliori da 32B e 72B raggiungono rispettivamente tassi di risoluzione del **56,1%** e del **58,5%**, che sono...
English
Recently, the frontier of Large Language Model (LLM) capabilities has shifted from single-turn code generation to agentic software engineering-a paradigm where models autonomously navigate, edit, and test complex repositories. While post-training methods have become the de facto approach for code agents, **agentic mid-training**-mid-training (MT) on large-scale data that mirrors authentic agentic workflows-remains critically underexplored due to substantial resource requirements, despite offering a more scalable path to instilling foundational agentic behaviors than relying solely on expensive reinforcement learning. A central challenge in realizing effective agentic mid-training is the distribution mismatch between static training data and the dynamic, feedback-rich environment of real development. To address this, we present a systematic study of agentic mid-training, establishing both the data synthesis principles and training methodology for effective agent development at scale. Central to our approach is **agent-native data**-supervision comprising two complementary types of trajectories: **contextually-native trajectories** that preserve the complete information flow an agent experiences, offering broad coverage and diversity; and **environmentally-native trajectories** collected from executable repositories where observations stem from actual tool invocations and test executions, providing depth and interaction authenticity. We verify the model's agentic capabilities on `SWE-Bench Verified`. We demonstrate our superiority over the previous open software engineering mid-training recipe `Kimi-Dev` under two post-training settings with an aligned base model and agentic scaffold, while using less than half mid-training tokens (73.1B). Besides relative advantage, our best performing 32B and 72B models achieve **56.1%** and **58.5%** resolution rates, respectively, which are ...