Обучение агентов для разработки программного обеспечения с длинным контекстом и многошаговым взаимодействием с использованием обучения с подкреплением
Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning
August 5, 2025
Авторы: Alexander Golubev, Maria Trofimova, Sergei Polezhaev, Ibragim Badertdinov, Maksim Nekrashevich, Anton Shevtsov, Simon Karasik, Sergey Abramov, Andrei Andriushchenko, Filipp Fisin, Sergei Skvortsov, Boris Yangel
cs.AI
Аннотация
Исследования по применению обучения с подкреплением (Reinforcement Learning, RL) к большим языковым моделям (Large Language Models, LLMs) в основном были сосредоточены на задачах, решаемых за один шаг, таких как математические рассуждения или генерация кода за один проход. Хотя эти задачи можно рассматривать как многошаговые марковские процессы принятия решений (MDP) на уровне токенов, такой подход соответствует вырожденному случаю многошагового взаимодействия, где среда не предоставляет обратной связи. Это контрастирует со многими реальными областями, такими как разработка программного обеспечения (Software Engineering, SWE), которые требуют насыщенного многошагового взаимодействия с состоятельной средой, реагирующей на каждое действие нетривиальным наблюдением.
Чтобы преодолеть этот разрыв, мы демонстрируем успешное применение RL в этом общем режиме. Используя модифицированный алгоритм Decoupled Advantage Policy Optimization (DAPO), мы обучаем агента на основе модели Qwen2.5-72B-Instruct для решения реальных задач разработки программного обеспечения. Наш подход повышает успешность агента на бенчмарке SWE-bench Verified с 20% (базовая модель с тонкой настройкой на отклонение) до 39%, без использования каких-либо моделей-учителей. На бенчмарке SWE-rebench наш агент соответствует или превосходит ведущие модели с открытыми весами, такие как DeepSeek-V3-0324 и Qwen3-235B-A22B, используя идентичную инфраструктуру, предлагая жизнеспособный путь к созданию более способных автономных агентов для сложных реальных задач на основе открытых моделей.
English
Research on applications of Reinforcement Learning (RL) to Large Language
Models (LLMs) has mostly been focused on single-turn problems, such as
mathematical reasoning or single-shot code generation. While these problems can
be viewed as token-level multi-turn MDPs, this view corresponds to a degenerate
case of multi-turn interaction where the environment provides no feedback. This
contrasts with many real-world domains, such as software engineering (SWE),
which require rich multi-turn interactions with a stateful environment that
responds to each action with a non-trivial observation.
To bridge this gap, we demonstrate the successful application of RL to this
general regime. Using a modified Decoupled Advantage Policy Optimization (DAPO)
algorithm, we train an agent based on Qwen2.5-72B-Instruct to solve real-world
software engineering tasks. Our approach increases the agent's success rate on
the SWE-bench Verified benchmark from a 20% rejection fine-tuned baseline to
39%, without relying on any teacher models. On SWE-rebench, our agent matches
or outperforms leading open-weight models such as DeepSeek-V3-0324 and
Qwen3-235B-A22B using an identical scaffolding, offering a viable path toward
building more capable autonomous agents for complex real-world problems based
on open models.