ChatPaper.aiChatPaper

장문의 다중 턴 소프트웨어 엔지니어링 에이전트를 강화 학습으로 훈련하기

Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning

August 5, 2025
저자: Alexander Golubev, Maria Trofimova, Sergei Polezhaev, Ibragim Badertdinov, Maksim Nekrashevich, Anton Shevtsov, Simon Karasik, Sergey Abramov, Andrei Andriushchenko, Filipp Fisin, Sergei Skvortsov, Boris Yangel
cs.AI

초록

강화학습(Reinforcement Learning, RL)을 대규모 언어 모델(Large Language Models, LLMs)에 적용하는 연구는 주로 수학적 추론이나 단일 코드 생성과 같은 단일 턴 문제에 초점을 맞춰왔습니다. 이러한 문제들은 토큰 수준의 다중 턴 MDP(Markov Decision Process)로 볼 수 있지만, 이는 환경이 어떠한 피드백도 제공하지 않는 퇴화된 다중 턴 상호작용의 경우에 해당합니다. 이는 소프트웨어 엔지니어링(SWE)과 같은 많은 실제 문제 영역과 대조됩니다. 이러한 영역에서는 각 행동에 대해 의미 있는 관측을 제공하는 상태 유지 환경과의 풍부한 다중 턴 상호작용이 필요합니다. 이러한 격차를 해소하기 위해, 우리는 RL을 이러한 일반적인 영역에 성공적으로 적용하는 방법을 보여줍니다. 수정된 DAPO(Decoupled Advantage Policy Optimization) 알고리즘을 사용하여 Qwen2.5-72B-Instruct 기반의 에이전트를 훈련시켜 실제 소프트웨어 엔지니어링 작업을 해결하도록 합니다. 우리의 접근 방식은 교사 모델에 의존하지 않고도 SWE-bench Verified 벤치마크에서 에이전트의 성공률을 20%의 거부 미세 조정 기준선에서 39%로 증가시켰습니다. SWE-rebench에서는 동일한 스캐폴딩을 사용하여 DeepSeek-V3-0324 및 Qwen3-235B-A22B와 같은 주요 오픈 가중치 모델을 능가하거나 동등한 성능을 보여주며, 복잡한 실제 문제를 해결하기 위한 더 능력 있는 자율 에이전트를 구축하는 데 있어 실현 가능한 경로를 제시합니다.
English
Research on applications of Reinforcement Learning (RL) to Large Language Models (LLMs) has mostly been focused on single-turn problems, such as mathematical reasoning or single-shot code generation. While these problems can be viewed as token-level multi-turn MDPs, this view corresponds to a degenerate case of multi-turn interaction where the environment provides no feedback. This contrasts with many real-world domains, such as software engineering (SWE), which require rich multi-turn interactions with a stateful environment that responds to each action with a non-trivial observation. To bridge this gap, we demonstrate the successful application of RL to this general regime. Using a modified Decoupled Advantage Policy Optimization (DAPO) algorithm, we train an agent based on Qwen2.5-72B-Instruct to solve real-world software engineering tasks. Our approach increases the agent's success rate on the SWE-bench Verified benchmark from a 20% rejection fine-tuned baseline to 39%, without relying on any teacher models. On SWE-rebench, our agent matches or outperforms leading open-weight models such as DeepSeek-V3-0324 and Qwen3-235B-A22B using an identical scaffolding, offering a viable path toward building more capable autonomous agents for complex real-world problems based on open models.
PDF474August 7, 2025