daVinci-Dev: Agent-native Mid-training voor Software Engineering
daVinci-Dev: Agent-native Mid-training for Software Engineering
January 26, 2026
Auteurs: Ji Zeng, Dayuan Fu, Tiantian Mi, Yumin Zhuang, Yaxing Huang, Xuefeng Li, Lyumanshan Ye, Muhang Xie, Qishuo Hua, Zhen Huang, Mohan Jiang, Hanning Wang, Jifan Lin, Yang Xiao, Jie Sun, Yunze Wu, Pengfei Liu
cs.AI
Samenvatting
Recentelijk is de frontlinie van de capaciteiten van Large Language Models (LLM's) verschoven van codegeneratie in enkele stappen naar agent-gebaseerd software engineering - een paradigma waarbij modellen autonoom complexe repositories navigeren, bewerken en testen. Hoewel post-trainingmethoden de de facto aanpak zijn geworden voor code-agents, blijft **agentic mid-training** - mid-training (MT) op grootschalige data die authentieke agent-workflows nabootst - sterk onderbelicht vanwege aanzienlijke resourcevereisten, ondanks dat het een meer schaalbare weg biedt om fundamenteel agent-gedrag in te brengen dan alleen te vertrouwen op dure reinforcement learning. Een centrale uitdaging bij het realiseren van effectieve agentic mid-training is de distributiemismatch tussen statische trainingsdata en de dynamische, feedback-rijke omgeving van echte ontwikkeling. Om dit aan te pakken, presenteren we een systematische studie van agentic mid-training, waarbij we zowel de data-syntheseprincipes als de trainingsmethodologie voor effectieve agent-ontwikkeling op schaal vaststellen. Centraal in onze aanpak staat **agent-native data** - supervisie bestaande uit twee complementaire soorten trajecten: **contextueel-native trajecten** die de complete informatiestroom die een agent ervaart behouden, wat brede dekking en diversiteit biedt; en **omgevings-native trajecten** verzameld uit uitvoerbare repositories waar observaties voortkomen uit daadwerkelijke toolaanroepen en testuitvoeringen, wat diepte en interactie-authenticiteit biedt. We verifiëren de agent-capaciteiten van het model op `SWE-Bench Verified`. We tonen onze superioriteit aan ten opzichte van het vorige open software engineering mid-training recept `Kimi-Dev` onder twee post-training instellingen met een aligned basis-model en agentic scaffold, terwijl we minder dan de helft aan mid-training tokens gebruiken (73.1B). Naast een relatief voordeel, behalen onze best presterende 32B en 72B modellen **56.1%** en **58.5%** resolutiepercentages, respectievelijk, wat ...
English
Recently, the frontier of Large Language Model (LLM) capabilities has shifted from single-turn code generation to agentic software engineering-a paradigm where models autonomously navigate, edit, and test complex repositories. While post-training methods have become the de facto approach for code agents, **agentic mid-training**-mid-training (MT) on large-scale data that mirrors authentic agentic workflows-remains critically underexplored due to substantial resource requirements, despite offering a more scalable path to instilling foundational agentic behaviors than relying solely on expensive reinforcement learning. A central challenge in realizing effective agentic mid-training is the distribution mismatch between static training data and the dynamic, feedback-rich environment of real development. To address this, we present a systematic study of agentic mid-training, establishing both the data synthesis principles and training methodology for effective agent development at scale. Central to our approach is **agent-native data**-supervision comprising two complementary types of trajectories: **contextually-native trajectories** that preserve the complete information flow an agent experiences, offering broad coverage and diversity; and **environmentally-native trajectories** collected from executable repositories where observations stem from actual tool invocations and test executions, providing depth and interaction authenticity. We verify the model's agentic capabilities on `SWE-Bench Verified`. We demonstrate our superiority over the previous open software engineering mid-training recipe `Kimi-Dev` under two post-training settings with an aligned base model and agentic scaffold, while using less than half mid-training tokens (73.1B). Besides relative advantage, our best performing 32B and 72B models achieve **56.1%** and **58.5%** resolution rates, respectively, which are ...