SWE-RL: Verbetering van LLM-redenering via Reinforcement Learning op Open Software-evolutie

Samenvatting

De recente DeepSeek-R1-release heeft het immense potentieel van reinforcement learning (RL) aangetoond bij het verbeteren van de algemene redeneervaardigheden van grote taalmodellen (LLMs). Hoewel DeepSeek-R1 en ander vervolgwerk zich voornamelijk richten op het toepassen van RL op competitieve programmeer- en wiskundeproblemen, introduceert dit artikel SWE-RL, de eerste aanpak om RL-gebaseerd redeneren van LLMs op te schalen voor real-world software engineering. Door gebruik te maken van een lichtgewicht, op regels gebaseerde beloning (bijvoorbeeld de gelijkenisscore tussen de grondwaarheid en door het LLM gegenereerde oplossingen), stelt SWE-RL LLMs in staat om autonoom de redeneerprocessen en oplossingen van een ontwikkelaar te herstellen door te leren van uitgebreide open-source software-evolutiedata — het verslag van de volledige levenscyclus van software, inclusief code-snapshots, codewijzigingen en gebeurtenissen zoals issues en pull requests. Getraind op basis van Llama 3, behaalt ons resulterende redeneermodel, Llama3-SWE-RL-70B, een oplossingspercentage van 41,0% op SWE-bench Verified — een door mensen geverifieerde verzameling van real-world GitHub-issues. Voor zover wij weten, is dit de beste prestatie die tot nu toe is gerapporteerd voor middelgrote (<100B) LLMs, en zelfs vergelijkbaar met toonaangevende propriëtaire LLMs zoals GPT-4o. Verrassend genoeg heeft Llama3-SWE-RL, ondanks het uitvoeren van RL uitsluitend op software-evolutiedata, zelfs gegeneraliseerde redeneervaardigheden ontwikkeld. Het laat bijvoorbeeld verbeterde resultaten zien op vijf taken buiten het domein, namelijk functieprogrammering, bibliotheekgebruik, coderedenering, wiskunde en algemeen taalbegrip, terwijl een baseline met supervised finetuning gemiddeld zelfs tot prestatievermindering leidt. Over het algemeen opent SWE-RL een nieuwe richting om de redeneervaardigheden van LLMs te verbeteren door middel van reinforcement learning op massale software engineering-data.

English

The recent DeepSeek-R1 release has demonstrated the immense potential of reinforcement learning (RL) in enhancing the general reasoning capabilities of large language models (LLMs). While DeepSeek-R1 and other follow-up work primarily focus on applying RL to competitive coding and math problems, this paper introduces SWE-RL, the first approach to scale RL-based LLM reasoning for real-world software engineering. Leveraging a lightweight rule-based reward (e.g., the similarity score between ground-truth and LLM-generated solutions), SWE-RL enables LLMs to autonomously recover a developer's reasoning processes and solutions by learning from extensive open-source software evolution data -- the record of a software's entire lifecycle, including its code snapshots, code changes, and events such as issues and pull requests. Trained on top of Llama 3, our resulting reasoning model, Llama3-SWE-RL-70B, achieves a 41.0% solve rate on SWE-bench Verified -- a human-verified collection of real-world GitHub issues. To our knowledge, this is the best performance reported for medium-sized (<100B) LLMs to date, even comparable to leading proprietary LLMs like GPT-4o. Surprisingly, despite performing RL solely on software evolution data, Llama3-SWE-RL has even emerged with generalized reasoning skills. For example, it shows improved results on five out-of-domain tasks, namely, function coding, library use, code reasoning, mathematics, and general language understanding, whereas a supervised-finetuning baseline even leads to performance degradation on average. Overall, SWE-RL opens up a new direction to improve the reasoning capabilities of LLMs through reinforcement learning on massive software engineering data.

SWE-RL: Verbetering van LLM-redenering via Reinforcement Learning op Open Software-evolutie

SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution

Samenvatting

Support