daVinci-Dev : Formation intermédiaire native-agent pour l'ingénierie logicielle

papers.abstract

Récemment, la frontière des capacités des modèles de langage de grande taille (LLM) s'est déplacée de la génération de code en une seule étape vers l'ingénierie logicielle agentielle – un paradigme où les modèles naviguent, modifient et testent de manière autonome des dépôts complexes. Si les méthodes de post-formation sont devenues l'approche de facto pour les agents de code, l'**apprentissage agentiel intermédiaire** – une formation intermédiaire (MT) sur des données à grande échelle qui reflète les flux de travail agentiels authentiques – reste cruellement sous-exploré en raison de besoins substantiels en ressources, bien qu'il offre une voie plus évolutive pour inculquer des comportements agentiels fondamentaux que de s'appuyer uniquement sur un apprentissage par renforcement coûteux. Un défi central pour concrétiser un apprentissage intermédiaire agentiel efficace est l'écart de distribution entre les données d'entraînement statiques et l'environnement dynamique et riche en retours d'expérience du développement réel. Pour y remédier, nous présentons une étude systématique de l'apprentissage intermédiaire agentiel, établissant à la fois les principes de synthèse des données et la méthodologie d'entraînement pour un développement efficace d'agents à grande échelle. Au cœur de notre approche se trouvent les **données natives pour agents** – une supervision comprenant deux types de trajectoires complémentaires : les **trajectoires contextuellement natives** qui préservent le flux complet d'informations qu'un agent expérimente, offrant une large couverture et diversité ; et les **trajectoires environnementalement natives** collectées à partir de dépôts exécutables où les observations découlent d'invocations réelles d'outils et d'exécutions de tests, fournissant de la profondeur et une authenticité d'interaction. Nous vérifions les capacités agentielles du modèle sur `SWE-Bench Verified`. Nous démontrons notre supériorité par rapport à la précédente recette open d'apprentissage intermédiaire en ingénierie logicielle `Kimi-Dev` dans deux configurations de post-formation avec un modèle de base aligné et un échafaudage agentiel, tout en utilisant moins de la moitié des tokens d'apprentissage intermédiaire (73,1 milliards). Outre un avantage relatif, nos meilleurs modèles de 32B et 72B atteignent respectivement des taux de résolution de **56,1 %** et **58,5 %**, qui sont ...

English

Recently, the frontier of Large Language Model (LLM) capabilities has shifted from single-turn code generation to agentic software engineering-a paradigm where models autonomously navigate, edit, and test complex repositories. While post-training methods have become the de facto approach for code agents, **agentic mid-training**-mid-training (MT) on large-scale data that mirrors authentic agentic workflows-remains critically underexplored due to substantial resource requirements, despite offering a more scalable path to instilling foundational agentic behaviors than relying solely on expensive reinforcement learning. A central challenge in realizing effective agentic mid-training is the distribution mismatch between static training data and the dynamic, feedback-rich environment of real development. To address this, we present a systematic study of agentic mid-training, establishing both the data synthesis principles and training methodology for effective agent development at scale. Central to our approach is **agent-native data**-supervision comprising two complementary types of trajectories: **contextually-native trajectories** that preserve the complete information flow an agent experiences, offering broad coverage and diversity; and **environmentally-native trajectories** collected from executable repositories where observations stem from actual tool invocations and test executions, providing depth and interaction authenticity. We verify the model's agentic capabilities on `SWE-Bench Verified`. We demonstrate our superiority over the previous open software engineering mid-training recipe `Kimi-Dev` under two post-training settings with an aligned base model and agentic scaffold, while using less than half mid-training tokens (73.1B). Besides relative advantage, our best performing 32B and 72B models achieve **56.1%** and **58.5%** resolution rates, respectively, which are ...

daVinci-Dev : Formation intermédiaire native-agent pour l'ingénierie logicielle

daVinci-Dev: Agent-native Mid-training for Software Engineering

papers.abstract

Support