SWE-RL: Avançando o Raciocínio de LLMs por meio de Aprendizado por Reforço na Evolução de Software AbertoSWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open
Software Evolution
O recente lançamento do DeepSeek-R1 demonstrou o imenso potencial do aprendizado por reforço (RL) para aprimorar as capacidades de raciocínio geral de modelos de linguagem de grande escala (LLMs). Embora o DeepSeek-R1 e outros trabalhos subsequentes se concentrem principalmente na aplicação do RL em problemas de programação competitiva e matemática, este artigo introduz o SWE-RL, a primeira abordagem para escalar o raciocínio baseado em RL de LLMs para engenharia de software do mundo real. Utilizando uma recompensa leve baseada em regras (por exemplo, a pontuação de similaridade entre a solução verdadeira e a gerada pelo LLM), o SWE-RL permite que os LLMs recuperem autonomamente os processos de raciocínio e as soluções de um desenvolvedor, aprendendo a partir de extensos dados de evolução de software de código aberto — o registro de todo o ciclo de vida de um software, incluindo seus snapshots de código, alterações de código e eventos como issues e pull requests. Treinado sobre o Llama 3, nosso modelo de raciocínio resultante, o Llama3-SWE-RL-70B, alcança uma taxa de resolução de 41,0% no SWE-bench Verified — uma coleção verificada por humanos de issues reais do GitHub. Até onde sabemos, este é o melhor desempenho relatado para LLMs de médio porte (<100B) até o momento, comparável até mesmo a LLMs proprietários líderes como o GPT-4o. Surpreendentemente, apesar de realizar RL apenas em dados de evolução de software, o Llama3-SWE-RL demonstrou habilidades generalizadas de raciocínio. Por exemplo, ele mostra resultados aprimorados em cinco tarefas fora do domínio, nomeadamente, codificação de funções, uso de bibliotecas, raciocínio sobre código, matemática e compreensão geral de linguagem, enquanto uma linha de base de ajuste fino supervisionado até leva a uma degradação média no desempenho. No geral, o SWE-RL abre uma nova direção para melhorar as capacidades de raciocínio de LLMs por meio do aprendizado por reforço em dados massivos de engenharia de software.