SWE-RL: Avanzare il Ragionamento dei Modelli Linguistici tramite Apprendimento per Rinforzo sull'Evoluzione del Software Aperto
SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution
February 25, 2025
Autori: Yuxiang Wei, Olivier Duchenne, Jade Copet, Quentin Carbonneaux, Lingming Zhang, Daniel Fried, Gabriel Synnaeve, Rishabh Singh, Sida I. Wang
cs.AI
Abstract
Il recente rilascio di DeepSeek-R1 ha dimostrato l'enorme potenziale dell'apprendimento per rinforzo (Reinforcement Learning, RL) nel migliorare le capacità di ragionamento generale dei grandi modelli linguistici (Large Language Models, LLMs). Mentre DeepSeek-R1 e altri lavori successivi si concentrano principalmente sull'applicazione dell'RL a problemi di programmazione competitiva e matematica, questo articolo introduce SWE-RL, il primo approccio per scalare il ragionamento basato su RL dei LLM per l'ingegneria del software nel mondo reale. Sfruttando una ricompensa leggera basata su regole (ad esempio, il punteggio di similarità tra le soluzioni reali e quelle generate dal LLM), SWE-RL consente ai LLM di recuperare autonomamente i processi di ragionamento e le soluzioni di uno sviluppatore, apprendendo da estesi dati di evoluzione del software open-source — il registro dell'intero ciclo di vita di un software, inclusi snapshot del codice, modifiche al codice ed eventi come issue e pull request. Addestrato su Llama 3, il nostro modello di ragionamento risultante, Llama3-SWE-RL-70B, raggiunge un tasso di risoluzione del 41.0% su SWE-bench Verified, una raccolta verificata da esseri umani di issue reali di GitHub. A nostra conoscenza, si tratta della migliore performance riportata per LLM di medie dimensioni (<100B) fino ad oggi, paragonabile anche a LLM proprietari leader come GPT-4o. Sorprendentemente, nonostante l'RL sia stato eseguito esclusivamente su dati di evoluzione del software, Llama3-SWE-RL ha sviluppato anche abilità di ragionamento generalizzato. Ad esempio, mostra risultati migliorati in cinque task fuori dominio, ovvero codifica di funzioni, uso di librerie, ragionamento sul codice, matematica e comprensione del linguaggio generale, mentre una baseline di fine-tuning supervisionato porta addirittura a un degrado medio delle prestazioni. Nel complesso, SWE-RL apre una nuova direzione per migliorare le capacità di ragionamento dei LLM attraverso l'apprendimento per rinforzo su dati massicci di ingegneria del software.
English
The recent DeepSeek-R1 release has demonstrated the immense potential of
reinforcement learning (RL) in enhancing the general reasoning capabilities of
large language models (LLMs). While DeepSeek-R1 and other follow-up work
primarily focus on applying RL to competitive coding and math problems, this
paper introduces SWE-RL, the first approach to scale RL-based LLM reasoning for
real-world software engineering. Leveraging a lightweight rule-based reward
(e.g., the similarity score between ground-truth and LLM-generated solutions),
SWE-RL enables LLMs to autonomously recover a developer's reasoning processes
and solutions by learning from extensive open-source software evolution data --
the record of a software's entire lifecycle, including its code snapshots, code
changes, and events such as issues and pull requests. Trained on top of Llama
3, our resulting reasoning model, Llama3-SWE-RL-70B, achieves a 41.0% solve
rate on SWE-bench Verified -- a human-verified collection of real-world GitHub
issues. To our knowledge, this is the best performance reported for
medium-sized (<100B) LLMs to date, even comparable to leading proprietary LLMs
like GPT-4o. Surprisingly, despite performing RL solely on software evolution
data, Llama3-SWE-RL has even emerged with generalized reasoning skills. For
example, it shows improved results on five out-of-domain tasks, namely,
function coding, library use, code reasoning, mathematics, and general language
understanding, whereas a supervised-finetuning baseline even leads to
performance degradation on average. Overall, SWE-RL opens up a new direction to
improve the reasoning capabilities of LLMs through reinforcement learning on
massive software engineering data.Summary
AI-Generated Summary