daVinci-Dev: Entrenamiento intermedio nativo de agentes para ingeniería de software

Resumen

Recientemente, la frontera de las capacidades de los Modelos de Lenguaje a Gran Escala (LLM) ha evolucionado desde la generación de código en una sola interacción hacia la ingeniería de software agencial, un paradigma en el que los modelos navegan, editan y prueban repositorios complejos de forma autónoma. Si bien los métodos de post-entrenamiento se han convertido en el enfoque *de facto* para los agentes de código, el **entrenamiento intermedio agencial** (*mid-training*, MT) —es decir, el entrenamiento intermedio con datos a gran escala que reflejan flujos de trabajo agenciales auténticos— permanece críticamente poco explorado debido a los sustanciales requisitos de recursos, a pesar de ofrecer un camino más escalable para inculcar comportamientos agenciales fundamentales que depender únicamente del costoso aprendizaje por refuerzo. Un desafío central para materializar un entrenamiento intermedio agencial efectivo es el desajuste de distribución entre los datos de entrenamiento estáticos y el entorno dinámico y rico en retroalimentación del desarrollo real. Para abordarlo, presentamos un estudio sistemático del entrenamiento intermedio agencial, estableciendo tanto los principios de síntesis de datos como la metodología de entrenamiento para un desarrollo de agentes efectivo a escala. Es central en nuestro enfoque el concepto de **datos nativos para agentes** —una supervisión que comprende dos tipos complementarios de trayectorias: las **trayectorias contextualmente nativas**, que preservan el flujo completo de información que experimenta un agente, ofreciendo una amplia cobertura y diversidad; y las **trayectorias ambientalmente nativas**, recopiladas desde repositorios ejecutables donde las observaciones surgen de invocaciones reales de herramientas y ejecuciones de pruebas, proporcionando profundidad y autenticidad en la interacción. Verificamos las capacidades agenciales del modelo en `SWE-Bench Verified`. Demostramos nuestra superioridad sobre la receta de entrenamiento intermedio anterior para ingeniería de software abierto, `Kimi-Dev`, bajo dos configuraciones de post-entrenamiento con un modelo base y un andamiaje agencial alineados, mientras utilizamos menos de la mitad de los tokens de entrenamiento intermedio (73.1B). Además de la ventaja relativa, nuestros modelos de mejor rendimiento de 32B y 72B alcanzan tasas de resolución de **56.1%** y **58.5%**, respectivamente, las cuales son ...

English

Recently, the frontier of Large Language Model (LLM) capabilities has shifted from single-turn code generation to agentic software engineering-a paradigm where models autonomously navigate, edit, and test complex repositories. While post-training methods have become the de facto approach for code agents, **agentic mid-training**-mid-training (MT) on large-scale data that mirrors authentic agentic workflows-remains critically underexplored due to substantial resource requirements, despite offering a more scalable path to instilling foundational agentic behaviors than relying solely on expensive reinforcement learning. A central challenge in realizing effective agentic mid-training is the distribution mismatch between static training data and the dynamic, feedback-rich environment of real development. To address this, we present a systematic study of agentic mid-training, establishing both the data synthesis principles and training methodology for effective agent development at scale. Central to our approach is **agent-native data**-supervision comprising two complementary types of trajectories: **contextually-native trajectories** that preserve the complete information flow an agent experiences, offering broad coverage and diversity; and **environmentally-native trajectories** collected from executable repositories where observations stem from actual tool invocations and test executions, providing depth and interaction authenticity. We verify the model's agentic capabilities on `SWE-Bench Verified`. We demonstrate our superiority over the previous open software engineering mid-training recipe `Kimi-Dev` under two post-training settings with an aligned base model and agentic scaffold, while using less than half mid-training tokens (73.1B). Besides relative advantage, our best performing 32B and 72B models achieve **56.1%** and **58.5%** resolution rates, respectively, which are ...

daVinci-Dev: Entrenamiento intermedio nativo de agentes para ingeniería de software

daVinci-Dev: Agent-native Mid-training for Software Engineering

Resumen

Support