daVinci-Dev: Агентно-ориентированное промежуточное обучение для разработки программного обеспечения

Аннотация

В последнее время фокус возможностей больших языковых моделей (LLM) сместился с однократной генерации кода на агентскую разработку программного обеспечения — парадигму, в рамках которой модели автономно навигируют, редактируют и тестируют сложные репозитории. Хотя посттренировочные методы стали де-факто стандартом для код-агентов, **агентская мид-тренировка** — мид-тренировка (MT) на масштабных данных, имитирующих реальные агентские workflow, — остаётся критически малоизученной из-за значительных ресурсных затрат, несмотря на то, что предлагает более масштабируемый путь к закладке фундаментальных агентских поведений по сравнению с опорой исключительно на дорогостоящее обучение с подкреплением. Ключевой проблемой для реализации эффективной агентской мид-тренировки является несоответствие распределений между статичными тренировочными данными и динамичной, богатой обратной связью средой реальной разработки. Чтобы решить эту проблему, мы представляем систематическое исследование агентской мид-тренировки, устанавливая как принципы синтеза данных, так и методологию обучения для эффективного развития агентов в масштабе. Центральным элементом нашего подхода являются **агент-нативные данные** — супервизия, состоящая из двух взаимодополняющих типов траекторий: **контекстуально-нативных траекторий**, которые сохраняют полный поток информации, воспринимаемый агентом, обеспечивая широкое покрытие и разнообразие; и **средово-нативных траекторий**, собранных из исполняемых репозиториев, где наблюдения проистекают из реальных вызовов инструментов и запусков тестов, что обеспечивает глубину и аутентичность взаимодействия. Мы проверяем агентские способности модели на `SWE-Bench Verified`. Мы демонстрируем наше превосходство над предыдущим открытым рецептом мид-тренировки для разработки ПО `Kimi-Dev` в двух посттренировочных конфигурациях с выровненной базовой моделью и агентским каркасом, при этом используя менее половины токенов мид-тренировки (73,1 млрд). Помимо относительного преимущества, наши лучшие модели на 32B и 72B параметров достигают показателей успешного разрешения задач в **56,1%** и **58,5%** соответственно, что является ...

English

Recently, the frontier of Large Language Model (LLM) capabilities has shifted from single-turn code generation to agentic software engineering-a paradigm where models autonomously navigate, edit, and test complex repositories. While post-training methods have become the de facto approach for code agents, **agentic mid-training**-mid-training (MT) on large-scale data that mirrors authentic agentic workflows-remains critically underexplored due to substantial resource requirements, despite offering a more scalable path to instilling foundational agentic behaviors than relying solely on expensive reinforcement learning. A central challenge in realizing effective agentic mid-training is the distribution mismatch between static training data and the dynamic, feedback-rich environment of real development. To address this, we present a systematic study of agentic mid-training, establishing both the data synthesis principles and training methodology for effective agent development at scale. Central to our approach is **agent-native data**-supervision comprising two complementary types of trajectories: **contextually-native trajectories** that preserve the complete information flow an agent experiences, offering broad coverage and diversity; and **environmentally-native trajectories** collected from executable repositories where observations stem from actual tool invocations and test executions, providing depth and interaction authenticity. We verify the model's agentic capabilities on `SWE-Bench Verified`. We demonstrate our superiority over the previous open software engineering mid-training recipe `Kimi-Dev` under two post-training settings with an aligned base model and agentic scaffold, while using less than half mid-training tokens (73.1B). Besides relative advantage, our best performing 32B and 72B models achieve **56.1%** and **58.5%** resolution rates, respectively, which are ...

daVinci-Dev: Агентно-ориентированное промежуточное обучение для разработки программного обеспечения

daVinci-Dev: Agent-native Mid-training for Software Engineering

Аннотация

Support