daVinci-Dev: Agent-native Mid-training voor Software Engineering

Samenvatting

Recentelijk is de frontlinie van de capaciteiten van Large Language Models (LLM's) verschoven van codegeneratie in enkele stappen naar agent-gebaseerd software engineering - een paradigma waarbij modellen autonoom complexe repositories navigeren, bewerken en testen. Hoewel post-trainingmethoden de de facto aanpak zijn geworden voor code-agents, blijft **agentic mid-training** - mid-training (MT) op grootschalige data die authentieke agent-workflows nabootst - sterk onderbelicht vanwege aanzienlijke resourcevereisten, ondanks dat het een meer schaalbare weg biedt om fundamenteel agent-gedrag in te brengen dan alleen te vertrouwen op dure reinforcement learning. Een centrale uitdaging bij het realiseren van effectieve agentic mid-training is de distributiemismatch tussen statische trainingsdata en de dynamische, feedback-rijke omgeving van echte ontwikkeling. Om dit aan te pakken, presenteren we een systematische studie van agentic mid-training, waarbij we zowel de data-syntheseprincipes als de trainingsmethodologie voor effectieve agent-ontwikkeling op schaal vaststellen. Centraal in onze aanpak staat **agent-native data** - supervisie bestaande uit twee complementaire soorten trajecten: **contextueel-native trajecten** die de complete informatiestroom die een agent ervaart behouden, wat brede dekking en diversiteit biedt; en **omgevings-native trajecten** verzameld uit uitvoerbare repositories waar observaties voortkomen uit daadwerkelijke toolaanroepen en testuitvoeringen, wat diepte en interactie-authenticiteit biedt. We verifiëren de agent-capaciteiten van het model op `SWE-Bench Verified`. We tonen onze superioriteit aan ten opzichte van het vorige open software engineering mid-training recept `Kimi-Dev` onder twee post-training instellingen met een aligned basis-model en agentic scaffold, terwijl we minder dan de helft aan mid-training tokens gebruiken (73.1B). Naast een relatief voordeel, behalen onze best presterende 32B en 72B modellen **56.1%** en **58.5%** resolutiepercentages, respectievelijk, wat ...

English

Recently, the frontier of Large Language Model (LLM) capabilities has shifted from single-turn code generation to agentic software engineering-a paradigm where models autonomously navigate, edit, and test complex repositories. While post-training methods have become the de facto approach for code agents, **agentic mid-training**-mid-training (MT) on large-scale data that mirrors authentic agentic workflows-remains critically underexplored due to substantial resource requirements, despite offering a more scalable path to instilling foundational agentic behaviors than relying solely on expensive reinforcement learning. A central challenge in realizing effective agentic mid-training is the distribution mismatch between static training data and the dynamic, feedback-rich environment of real development. To address this, we present a systematic study of agentic mid-training, establishing both the data synthesis principles and training methodology for effective agent development at scale. Central to our approach is **agent-native data**-supervision comprising two complementary types of trajectories: **contextually-native trajectories** that preserve the complete information flow an agent experiences, offering broad coverage and diversity; and **environmentally-native trajectories** collected from executable repositories where observations stem from actual tool invocations and test executions, providing depth and interaction authenticity. We verify the model's agentic capabilities on `SWE-Bench Verified`. We demonstrate our superiority over the previous open software engineering mid-training recipe `Kimi-Dev` under two post-training settings with an aligned base model and agentic scaffold, while using less than half mid-training tokens (73.1B). Besides relative advantage, our best performing 32B and 72B models achieve **56.1%** and **58.5%** resolution rates, respectively, which are ...

daVinci-Dev: Agent-native Mid-training voor Software Engineering

daVinci-Dev: Agent-native Mid-training for Software Engineering

Samenvatting

Support