SWE-RL: Avançando o Raciocínio de LLMs por meio de Aprendizado por Reforço na Evolução de Software Aberto

Resumo

O recente lançamento do DeepSeek-R1 demonstrou o imenso potencial do aprendizado por reforço (RL) para aprimorar as capacidades de raciocínio geral de modelos de linguagem de grande escala (LLMs). Embora o DeepSeek-R1 e outros trabalhos subsequentes se concentrem principalmente na aplicação do RL em problemas de programação competitiva e matemática, este artigo introduz o SWE-RL, a primeira abordagem para escalar o raciocínio baseado em RL de LLMs para engenharia de software do mundo real. Utilizando uma recompensa leve baseada em regras (por exemplo, a pontuação de similaridade entre a solução verdadeira e a gerada pelo LLM), o SWE-RL permite que os LLMs recuperem autonomamente os processos de raciocínio e as soluções de um desenvolvedor, aprendendo a partir de extensos dados de evolução de software de código aberto — o registro de todo o ciclo de vida de um software, incluindo seus snapshots de código, alterações de código e eventos como issues e pull requests. Treinado sobre o Llama 3, nosso modelo de raciocínio resultante, o Llama3-SWE-RL-70B, alcança uma taxa de resolução de 41,0% no SWE-bench Verified — uma coleção verificada por humanos de issues reais do GitHub. Até onde sabemos, este é o melhor desempenho relatado para LLMs de médio porte (<100B) até o momento, comparável até mesmo a LLMs proprietários líderes como o GPT-4o. Surpreendentemente, apesar de realizar RL apenas em dados de evolução de software, o Llama3-SWE-RL demonstrou habilidades generalizadas de raciocínio. Por exemplo, ele mostra resultados aprimorados em cinco tarefas fora do domínio, nomeadamente, codificação de funções, uso de bibliotecas, raciocínio sobre código, matemática e compreensão geral de linguagem, enquanto uma linha de base de ajuste fino supervisionado até leva a uma degradação média no desempenho. No geral, o SWE-RL abre uma nova direção para melhorar as capacidades de raciocínio de LLMs por meio do aprendizado por reforço em dados massivos de engenharia de software.

English

The recent DeepSeek-R1 release has demonstrated the immense potential of reinforcement learning (RL) in enhancing the general reasoning capabilities of large language models (LLMs). While DeepSeek-R1 and other follow-up work primarily focus on applying RL to competitive coding and math problems, this paper introduces SWE-RL, the first approach to scale RL-based LLM reasoning for real-world software engineering. Leveraging a lightweight rule-based reward (e.g., the similarity score between ground-truth and LLM-generated solutions), SWE-RL enables LLMs to autonomously recover a developer's reasoning processes and solutions by learning from extensive open-source software evolution data -- the record of a software's entire lifecycle, including its code snapshots, code changes, and events such as issues and pull requests. Trained on top of Llama 3, our resulting reasoning model, Llama3-SWE-RL-70B, achieves a 41.0% solve rate on SWE-bench Verified -- a human-verified collection of real-world GitHub issues. To our knowledge, this is the best performance reported for medium-sized (<100B) LLMs to date, even comparable to leading proprietary LLMs like GPT-4o. Surprisingly, despite performing RL solely on software evolution data, Llama3-SWE-RL has even emerged with generalized reasoning skills. For example, it shows improved results on five out-of-domain tasks, namely, function coding, library use, code reasoning, mathematics, and general language understanding, whereas a supervised-finetuning baseline even leads to performance degradation on average. Overall, SWE-RL opens up a new direction to improve the reasoning capabilities of LLMs through reinforcement learning on massive software engineering data.

SWE-RL: Avançando o Raciocínio de LLMs por meio de Aprendizado por Reforço na Evolução de Software Aberto

SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution

Resumo

Support