SWE-RL: Avanzare il Ragionamento dei Modelli Linguistici tramite Apprendimento per Rinforzo sull'Evoluzione del Software ApertoSWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open
Software Evolution
Il recente rilascio di DeepSeek-R1 ha dimostrato l'enorme potenziale dell'apprendimento per rinforzo (Reinforcement Learning, RL) nel migliorare le capacità di ragionamento generale dei grandi modelli linguistici (Large Language Models, LLMs). Mentre DeepSeek-R1 e altri lavori successivi si concentrano principalmente sull'applicazione dell'RL a problemi di programmazione competitiva e matematica, questo articolo introduce SWE-RL, il primo approccio per scalare il ragionamento basato su RL dei LLM per l'ingegneria del software nel mondo reale. Sfruttando una ricompensa leggera basata su regole (ad esempio, il punteggio di similarità tra le soluzioni reali e quelle generate dal LLM), SWE-RL consente ai LLM di recuperare autonomamente i processi di ragionamento e le soluzioni di uno sviluppatore, apprendendo da estesi dati di evoluzione del software open-source — il registro dell'intero ciclo di vita di un software, inclusi snapshot del codice, modifiche al codice ed eventi come issue e pull request. Addestrato su Llama 3, il nostro modello di ragionamento risultante, Llama3-SWE-RL-70B, raggiunge un tasso di risoluzione del 41.0% su SWE-bench Verified, una raccolta verificata da esseri umani di issue reali di GitHub. A nostra conoscenza, si tratta della migliore performance riportata per LLM di medie dimensioni (<100B) fino ad oggi, paragonabile anche a LLM proprietari leader come GPT-4o. Sorprendentemente, nonostante l'RL sia stato eseguito esclusivamente su dati di evoluzione del software, Llama3-SWE-RL ha sviluppato anche abilità di ragionamento generalizzato. Ad esempio, mostra risultati migliorati in cinque task fuori dominio, ovvero codifica di funzioni, uso di librerie, ragionamento sul codice, matematica e comprensione del linguaggio generale, mentre una baseline di fine-tuning supervisionato porta addirittura a un degrado medio delle prestazioni. Nel complesso, SWE-RL apre una nuova direzione per migliorare le capacità di ragionamento dei LLM attraverso l'apprendimento per rinforzo su dati massicci di ingegneria del software.