SWE-RL: Avançando o Raciocínio de LLMs por meio de Aprendizado por Reforço na Evolução de Software Aberto
SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution
February 25, 2025
Autores: Yuxiang Wei, Olivier Duchenne, Jade Copet, Quentin Carbonneaux, Lingming Zhang, Daniel Fried, Gabriel Synnaeve, Rishabh Singh, Sida I. Wang
cs.AI
Resumo
O recente lançamento do DeepSeek-R1 demonstrou o imenso potencial do aprendizado por reforço (RL) para aprimorar as capacidades de raciocínio geral de modelos de linguagem de grande escala (LLMs). Embora o DeepSeek-R1 e outros trabalhos subsequentes se concentrem principalmente na aplicação do RL em problemas de programação competitiva e matemática, este artigo introduz o SWE-RL, a primeira abordagem para escalar o raciocínio baseado em RL de LLMs para engenharia de software do mundo real. Utilizando uma recompensa leve baseada em regras (por exemplo, a pontuação de similaridade entre a solução verdadeira e a gerada pelo LLM), o SWE-RL permite que os LLMs recuperem autonomamente os processos de raciocínio e as soluções de um desenvolvedor, aprendendo a partir de extensos dados de evolução de software de código aberto — o registro de todo o ciclo de vida de um software, incluindo seus snapshots de código, alterações de código e eventos como issues e pull requests. Treinado sobre o Llama 3, nosso modelo de raciocínio resultante, o Llama3-SWE-RL-70B, alcança uma taxa de resolução de 41,0% no SWE-bench Verified — uma coleção verificada por humanos de issues reais do GitHub. Até onde sabemos, este é o melhor desempenho relatado para LLMs de médio porte (<100B) até o momento, comparável até mesmo a LLMs proprietários líderes como o GPT-4o. Surpreendentemente, apesar de realizar RL apenas em dados de evolução de software, o Llama3-SWE-RL demonstrou habilidades generalizadas de raciocínio. Por exemplo, ele mostra resultados aprimorados em cinco tarefas fora do domínio, nomeadamente, codificação de funções, uso de bibliotecas, raciocínio sobre código, matemática e compreensão geral de linguagem, enquanto uma linha de base de ajuste fino supervisionado até leva a uma degradação média no desempenho. No geral, o SWE-RL abre uma nova direção para melhorar as capacidades de raciocínio de LLMs por meio do aprendizado por reforço em dados massivos de engenharia de software.
English
The recent DeepSeek-R1 release has demonstrated the immense potential of
reinforcement learning (RL) in enhancing the general reasoning capabilities of
large language models (LLMs). While DeepSeek-R1 and other follow-up work
primarily focus on applying RL to competitive coding and math problems, this
paper introduces SWE-RL, the first approach to scale RL-based LLM reasoning for
real-world software engineering. Leveraging a lightweight rule-based reward
(e.g., the similarity score between ground-truth and LLM-generated solutions),
SWE-RL enables LLMs to autonomously recover a developer's reasoning processes
and solutions by learning from extensive open-source software evolution data --
the record of a software's entire lifecycle, including its code snapshots, code
changes, and events such as issues and pull requests. Trained on top of Llama
3, our resulting reasoning model, Llama3-SWE-RL-70B, achieves a 41.0% solve
rate on SWE-bench Verified -- a human-verified collection of real-world GitHub
issues. To our knowledge, this is the best performance reported for
medium-sized (<100B) LLMs to date, even comparable to leading proprietary LLMs
like GPT-4o. Surprisingly, despite performing RL solely on software evolution
data, Llama3-SWE-RL has even emerged with generalized reasoning skills. For
example, it shows improved results on five out-of-domain tasks, namely,
function coding, library use, code reasoning, mathematics, and general language
understanding, whereas a supervised-finetuning baseline even leads to
performance degradation on average. Overall, SWE-RL opens up a new direction to
improve the reasoning capabilities of LLMs through reinforcement learning on
massive software engineering data.Summary
AI-Generated Summary