daVinci-Dev: Agenten-native Mid-Training für Softwareentwicklung

papers.abstract

Kürzlich hat sich die Grenze der Fähigkeiten großer Sprachmodelle (LLM) von der Einzelinteraktions-Codegenerierung hin zu agentenbasierter Softwareentwicklung verschoben – einem Paradigma, bei dem Modelle komplexe Repositorys autonom navigieren, bearbeiten und testen. Während Nachtrainingsmethoden zum De-facto-Ansatz für Code-Agenten geworden sind, bleibt **agentisches Mittraining** – das Mittraining (MT) mit großvolumigen Daten, die authentische agentische Arbeitsabläufe abbilden – aufgrund des erheblichen Ressourcenbedarfs kritisch untererforscht, obwohl es einen skalierbareren Weg zur Verankerung grundlegender agentischer Verhaltensweisen bietet als die alleinige Abhängigkeit von teurem Reinforcement Learning. Eine zentrale Herausforderung bei der Realisierung effektiven agentischen Mittrainings ist die Verteilungsdiskrepanz zwischen statischen Trainingsdaten und der dynamischen, feedbackreichen Umgebung echter Entwicklung. Um dies zu adressieren, präsentieren wir eine systematische Studie zum agentischen Mittraining, in der wir sowohl die Daten-synthese-Prinzipien als auch die Trainingsmethodik für eine effektive Agentenentwicklung im großen Maßstab etablieren. Zentrale Elemente unseres Ansatzes sind **agent-native Daten** – Supervision, die sich aus zwei komplementären Arten von Trajektorien zusammensetzt: **kontextuell-native Trajektorien**, die den vollständigen Informationsfluss erhalten, den ein Agent erfährt und damit breite Abdeckung und Vielfalt bieten; und **umgebungs-native Trajektorien**, die aus ausführbaren Repositorys gesammelt werden, wobei Beobachtungen auf tatsächlichen Tool-Aufrufen und Testausführungen basieren und somit Tiefe und Interaktionsauthentizität gewährleisten. Wir verifizieren die agentischen Fähigkeiten des Modells anhand von `SWE-Bench Verified`. Wir demonstrieren unsere Überlegenheit gegenüber dem bisherigen offenen Rezept für Softwareentwicklungs-Mittraining `Kimi-Dev` unter zwei Nachtrainings-Settings mit einem alignierten Basismodell und agentischem Scaffold, wobei wir weniger als die Hälfte der Mittraining-Tokens (73,1 Mrd.) verwenden. Neben dem relativen Vorteil erzielen unsere leistungsstärksten 32B- und 72B-Modelle **56,1 %** bzw. **58,5 %** Lösungsraten, die ...

English

Recently, the frontier of Large Language Model (LLM) capabilities has shifted from single-turn code generation to agentic software engineering-a paradigm where models autonomously navigate, edit, and test complex repositories. While post-training methods have become the de facto approach for code agents, **agentic mid-training**-mid-training (MT) on large-scale data that mirrors authentic agentic workflows-remains critically underexplored due to substantial resource requirements, despite offering a more scalable path to instilling foundational agentic behaviors than relying solely on expensive reinforcement learning. A central challenge in realizing effective agentic mid-training is the distribution mismatch between static training data and the dynamic, feedback-rich environment of real development. To address this, we present a systematic study of agentic mid-training, establishing both the data synthesis principles and training methodology for effective agent development at scale. Central to our approach is **agent-native data**-supervision comprising two complementary types of trajectories: **contextually-native trajectories** that preserve the complete information flow an agent experiences, offering broad coverage and diversity; and **environmentally-native trajectories** collected from executable repositories where observations stem from actual tool invocations and test executions, providing depth and interaction authenticity. We verify the model's agentic capabilities on `SWE-Bench Verified`. We demonstrate our superiority over the previous open software engineering mid-training recipe `Kimi-Dev` under two post-training settings with an aligned base model and agentic scaffold, while using less than half mid-training tokens (73.1B). Besides relative advantage, our best performing 32B and 72B models achieve **56.1%** and **58.5%** resolution rates, respectively, which are ...

daVinci-Dev: Agenten-native Mid-Training für Softwareentwicklung

daVinci-Dev: Agent-native Mid-training for Software Engineering

papers.abstract

Support