Обучение агентов для разработки программного обеспечения с длинным контекстом и многошаговым взаимодействием с использованием обучения с подкреплением

Аннотация

Исследования по применению обучения с подкреплением (Reinforcement Learning, RL) к большим языковым моделям (Large Language Models, LLMs) в основном были сосредоточены на задачах, решаемых за один шаг, таких как математические рассуждения или генерация кода за один проход. Хотя эти задачи можно рассматривать как многошаговые марковские процессы принятия решений (MDP) на уровне токенов, такой подход соответствует вырожденному случаю многошагового взаимодействия, где среда не предоставляет обратной связи. Это контрастирует со многими реальными областями, такими как разработка программного обеспечения (Software Engineering, SWE), которые требуют насыщенного многошагового взаимодействия с состоятельной средой, реагирующей на каждое действие нетривиальным наблюдением. Чтобы преодолеть этот разрыв, мы демонстрируем успешное применение RL в этом общем режиме. Используя модифицированный алгоритм Decoupled Advantage Policy Optimization (DAPO), мы обучаем агента на основе модели Qwen2.5-72B-Instruct для решения реальных задач разработки программного обеспечения. Наш подход повышает успешность агента на бенчмарке SWE-bench Verified с 20% (базовая модель с тонкой настройкой на отклонение) до 39%, без использования каких-либо моделей-учителей. На бенчмарке SWE-rebench наш агент соответствует или превосходит ведущие модели с открытыми весами, такие как DeepSeek-V3-0324 и Qwen3-235B-A22B, используя идентичную инфраструктуру, предлагая жизнеспособный путь к созданию более способных автономных агентов для сложных реальных задач на основе открытых моделей.

English

Research on applications of Reinforcement Learning (RL) to Large Language Models (LLMs) has mostly been focused on single-turn problems, such as mathematical reasoning or single-shot code generation. While these problems can be viewed as token-level multi-turn MDPs, this view corresponds to a degenerate case of multi-turn interaction where the environment provides no feedback. This contrasts with many real-world domains, such as software engineering (SWE), which require rich multi-turn interactions with a stateful environment that responds to each action with a non-trivial observation. To bridge this gap, we demonstrate the successful application of RL to this general regime. Using a modified Decoupled Advantage Policy Optimization (DAPO) algorithm, we train an agent based on Qwen2.5-72B-Instruct to solve real-world software engineering tasks. Our approach increases the agent's success rate on the SWE-bench Verified benchmark from a 20% rejection fine-tuned baseline to 39%, without relying on any teacher models. On SWE-rebench, our agent matches or outperforms leading open-weight models such as DeepSeek-V3-0324 and Qwen3-235B-A22B using an identical scaffolding, offering a viable path toward building more capable autonomous agents for complex real-world problems based on open models.

Обучение агентов для разработки программного обеспечения с длинным контекстом и многошаговым взаимодействием с использованием обучения с подкреплением

Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning

Аннотация

Support