ChatPaper.aiChatPaper

daVinci-Dev: Агентно-ориентированное промежуточное обучение для разработки программного обеспечения

daVinci-Dev: Agent-native Mid-training for Software Engineering

January 26, 2026
Авторы: Ji Zeng, Dayuan Fu, Tiantian Mi, Yumin Zhuang, Yaxing Huang, Xuefeng Li, Lyumanshan Ye, Muhang Xie, Qishuo Hua, Zhen Huang, Mohan Jiang, Hanning Wang, Jifan Lin, Yang Xiao, Jie Sun, Yunze Wu, Pengfei Liu
cs.AI

Аннотация

В последнее время фокус возможностей больших языковых моделей (LLM) сместился с однократной генерации кода на агентскую разработку программного обеспечения — парадигму, в рамках которой модели автономно навигируют, редактируют и тестируют сложные репозитории. Хотя посттренировочные методы стали де-факто стандартом для код-агентов, **агентская мид-тренировка** — мид-тренировка (MT) на масштабных данных, имитирующих реальные агентские workflow, — остаётся критически малоизученной из-за значительных ресурсных затрат, несмотря на то, что предлагает более масштабируемый путь к закладке фундаментальных агентских поведений по сравнению с опорой исключительно на дорогостоящее обучение с подкреплением. Ключевой проблемой для реализации эффективной агентской мид-тренировки является несоответствие распределений между статичными тренировочными данными и динамичной, богатой обратной связью средой реальной разработки. Чтобы решить эту проблему, мы представляем систематическое исследование агентской мид-тренировки, устанавливая как принципы синтеза данных, так и методологию обучения для эффективного развития агентов в масштабе. Центральным элементом нашего подхода являются **агент-нативные данные** — супервизия, состоящая из двух взаимодополняющих типов траекторий: **контекстуально-нативных траекторий**, которые сохраняют полный поток информации, воспринимаемый агентом, обеспечивая широкое покрытие и разнообразие; и **средово-нативных траекторий**, собранных из исполняемых репозиториев, где наблюдения проистекают из реальных вызовов инструментов и запусков тестов, что обеспечивает глубину и аутентичность взаимодействия. Мы проверяем агентские способности модели на `SWE-Bench Verified`. Мы демонстрируем наше превосходство над предыдущим открытым рецептом мид-тренировки для разработки ПО `Kimi-Dev` в двух посттренировочных конфигурациях с выровненной базовой моделью и агентским каркасом, при этом используя менее половины токенов мид-тренировки (73,1 млрд). Помимо относительного преимущества, наши лучшие модели на 32B и 72B параметров достигают показателей успешного разрешения задач в **56,1%** и **58,5%** соответственно, что является ...
English
Recently, the frontier of Large Language Model (LLM) capabilities has shifted from single-turn code generation to agentic software engineering-a paradigm where models autonomously navigate, edit, and test complex repositories. While post-training methods have become the de facto approach for code agents, **agentic mid-training**-mid-training (MT) on large-scale data that mirrors authentic agentic workflows-remains critically underexplored due to substantial resource requirements, despite offering a more scalable path to instilling foundational agentic behaviors than relying solely on expensive reinforcement learning. A central challenge in realizing effective agentic mid-training is the distribution mismatch between static training data and the dynamic, feedback-rich environment of real development. To address this, we present a systematic study of agentic mid-training, establishing both the data synthesis principles and training methodology for effective agent development at scale. Central to our approach is **agent-native data**-supervision comprising two complementary types of trajectories: **contextually-native trajectories** that preserve the complete information flow an agent experiences, offering broad coverage and diversity; and **environmentally-native trajectories** collected from executable repositories where observations stem from actual tool invocations and test executions, providing depth and interaction authenticity. We verify the model's agentic capabilities on `SWE-Bench Verified`. We demonstrate our superiority over the previous open software engineering mid-training recipe `Kimi-Dev` under two post-training settings with an aligned base model and agentic scaffold, while using less than half mid-training tokens (73.1B). Besides relative advantage, our best performing 32B and 72B models achieve **56.1%** and **58.5%** resolution rates, respectively, which are ...
PDF1042January 28, 2026