SWE-RL: Avanzare il Ragionamento dei Modelli Linguistici tramite Apprendimento per Rinforzo sull'Evoluzione del Software Aperto

Abstract

Il recente rilascio di DeepSeek-R1 ha dimostrato l'enorme potenziale dell'apprendimento per rinforzo (Reinforcement Learning, RL) nel migliorare le capacità di ragionamento generale dei grandi modelli linguistici (Large Language Models, LLMs). Mentre DeepSeek-R1 e altri lavori successivi si concentrano principalmente sull'applicazione dell'RL a problemi di programmazione competitiva e matematica, questo articolo introduce SWE-RL, il primo approccio per scalare il ragionamento basato su RL dei LLM per l'ingegneria del software nel mondo reale. Sfruttando una ricompensa leggera basata su regole (ad esempio, il punteggio di similarità tra le soluzioni reali e quelle generate dal LLM), SWE-RL consente ai LLM di recuperare autonomamente i processi di ragionamento e le soluzioni di uno sviluppatore, apprendendo da estesi dati di evoluzione del software open-source — il registro dell'intero ciclo di vita di un software, inclusi snapshot del codice, modifiche al codice ed eventi come issue e pull request. Addestrato su Llama 3, il nostro modello di ragionamento risultante, Llama3-SWE-RL-70B, raggiunge un tasso di risoluzione del 41.0% su SWE-bench Verified, una raccolta verificata da esseri umani di issue reali di GitHub. A nostra conoscenza, si tratta della migliore performance riportata per LLM di medie dimensioni (<100B) fino ad oggi, paragonabile anche a LLM proprietari leader come GPT-4o. Sorprendentemente, nonostante l'RL sia stato eseguito esclusivamente su dati di evoluzione del software, Llama3-SWE-RL ha sviluppato anche abilità di ragionamento generalizzato. Ad esempio, mostra risultati migliorati in cinque task fuori dominio, ovvero codifica di funzioni, uso di librerie, ragionamento sul codice, matematica e comprensione del linguaggio generale, mentre una baseline di fine-tuning supervisionato porta addirittura a un degrado medio delle prestazioni. Nel complesso, SWE-RL apre una nuova direzione per migliorare le capacità di ragionamento dei LLM attraverso l'apprendimento per rinforzo su dati massicci di ingegneria del software.

English

The recent DeepSeek-R1 release has demonstrated the immense potential of reinforcement learning (RL) in enhancing the general reasoning capabilities of large language models (LLMs). While DeepSeek-R1 and other follow-up work primarily focus on applying RL to competitive coding and math problems, this paper introduces SWE-RL, the first approach to scale RL-based LLM reasoning for real-world software engineering. Leveraging a lightweight rule-based reward (e.g., the similarity score between ground-truth and LLM-generated solutions), SWE-RL enables LLMs to autonomously recover a developer's reasoning processes and solutions by learning from extensive open-source software evolution data -- the record of a software's entire lifecycle, including its code snapshots, code changes, and events such as issues and pull requests. Trained on top of Llama 3, our resulting reasoning model, Llama3-SWE-RL-70B, achieves a 41.0% solve rate on SWE-bench Verified -- a human-verified collection of real-world GitHub issues. To our knowledge, this is the best performance reported for medium-sized (<100B) LLMs to date, even comparable to leading proprietary LLMs like GPT-4o. Surprisingly, despite performing RL solely on software evolution data, Llama3-SWE-RL has even emerged with generalized reasoning skills. For example, it shows improved results on five out-of-domain tasks, namely, function coding, library use, code reasoning, mathematics, and general language understanding, whereas a supervised-finetuning baseline even leads to performance degradation on average. Overall, SWE-RL opens up a new direction to improve the reasoning capabilities of LLMs through reinforcement learning on massive software engineering data.

SWE-RL: Avanzare il Ragionamento dei Modelli Linguistici tramite Apprendimento per Rinforzo sull'Evoluzione del Software Aperto

SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution

Abstract

Support