SWE-RL: Verbetering van LLM-redenering via Reinforcement Learning op Open Software-evolutie
SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution
February 25, 2025
Auteurs: Yuxiang Wei, Olivier Duchenne, Jade Copet, Quentin Carbonneaux, Lingming Zhang, Daniel Fried, Gabriel Synnaeve, Rishabh Singh, Sida I. Wang
cs.AI
Samenvatting
De recente DeepSeek-R1-release heeft het immense potentieel van reinforcement learning (RL) aangetoond bij het verbeteren van de algemene redeneervaardigheden van grote taalmodellen (LLMs). Hoewel DeepSeek-R1 en ander vervolgwerk zich voornamelijk richten op het toepassen van RL op competitieve programmeer- en wiskundeproblemen, introduceert dit artikel SWE-RL, de eerste aanpak om RL-gebaseerd redeneren van LLMs op te schalen voor real-world software engineering. Door gebruik te maken van een lichtgewicht, op regels gebaseerde beloning (bijvoorbeeld de gelijkenisscore tussen de grondwaarheid en door het LLM gegenereerde oplossingen), stelt SWE-RL LLMs in staat om autonoom de redeneerprocessen en oplossingen van een ontwikkelaar te herstellen door te leren van uitgebreide open-source software-evolutiedata — het verslag van de volledige levenscyclus van software, inclusief code-snapshots, codewijzigingen en gebeurtenissen zoals issues en pull requests. Getraind op basis van Llama 3, behaalt ons resulterende redeneermodel, Llama3-SWE-RL-70B, een oplossingspercentage van 41,0% op SWE-bench Verified — een door mensen geverifieerde verzameling van real-world GitHub-issues. Voor zover wij weten, is dit de beste prestatie die tot nu toe is gerapporteerd voor middelgrote (<100B) LLMs, en zelfs vergelijkbaar met toonaangevende propriëtaire LLMs zoals GPT-4o. Verrassend genoeg heeft Llama3-SWE-RL, ondanks het uitvoeren van RL uitsluitend op software-evolutiedata, zelfs gegeneraliseerde redeneervaardigheden ontwikkeld. Het laat bijvoorbeeld verbeterde resultaten zien op vijf taken buiten het domein, namelijk functieprogrammering, bibliotheekgebruik, coderedenering, wiskunde en algemeen taalbegrip, terwijl een baseline met supervised finetuning gemiddeld zelfs tot prestatievermindering leidt. Over het algemeen opent SWE-RL een nieuwe richting om de redeneervaardigheden van LLMs te verbeteren door middel van reinforcement learning op massale software engineering-data.
English
The recent DeepSeek-R1 release has demonstrated the immense potential of
reinforcement learning (RL) in enhancing the general reasoning capabilities of
large language models (LLMs). While DeepSeek-R1 and other follow-up work
primarily focus on applying RL to competitive coding and math problems, this
paper introduces SWE-RL, the first approach to scale RL-based LLM reasoning for
real-world software engineering. Leveraging a lightweight rule-based reward
(e.g., the similarity score between ground-truth and LLM-generated solutions),
SWE-RL enables LLMs to autonomously recover a developer's reasoning processes
and solutions by learning from extensive open-source software evolution data --
the record of a software's entire lifecycle, including its code snapshots, code
changes, and events such as issues and pull requests. Trained on top of Llama
3, our resulting reasoning model, Llama3-SWE-RL-70B, achieves a 41.0% solve
rate on SWE-bench Verified -- a human-verified collection of real-world GitHub
issues. To our knowledge, this is the best performance reported for
medium-sized (<100B) LLMs to date, even comparable to leading proprietary LLMs
like GPT-4o. Surprisingly, despite performing RL solely on software evolution
data, Llama3-SWE-RL has even emerged with generalized reasoning skills. For
example, it shows improved results on five out-of-domain tasks, namely,
function coding, library use, code reasoning, mathematics, and general language
understanding, whereas a supervised-finetuning baseline even leads to
performance degradation on average. Overall, SWE-RL opens up a new direction to
improve the reasoning capabilities of LLMs through reinforcement learning on
massive software engineering data.Summary
AI-Generated Summary