SWE-RL: Verbetering van LLM-redenering via Reinforcement Learning op Open Software-evolutieSWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open
Software Evolution
De recente DeepSeek-R1-release heeft het immense potentieel van reinforcement learning (RL) aangetoond bij het verbeteren van de algemene redeneervaardigheden van grote taalmodellen (LLMs). Hoewel DeepSeek-R1 en ander vervolgwerk zich voornamelijk richten op het toepassen van RL op competitieve programmeer- en wiskundeproblemen, introduceert dit artikel SWE-RL, de eerste aanpak om RL-gebaseerd redeneren van LLMs op te schalen voor real-world software engineering. Door gebruik te maken van een lichtgewicht, op regels gebaseerde beloning (bijvoorbeeld de gelijkenisscore tussen de grondwaarheid en door het LLM gegenereerde oplossingen), stelt SWE-RL LLMs in staat om autonoom de redeneerprocessen en oplossingen van een ontwikkelaar te herstellen door te leren van uitgebreide open-source software-evolutiedata — het verslag van de volledige levenscyclus van software, inclusief code-snapshots, codewijzigingen en gebeurtenissen zoals issues en pull requests. Getraind op basis van Llama 3, behaalt ons resulterende redeneermodel, Llama3-SWE-RL-70B, een oplossingspercentage van 41,0% op SWE-bench Verified — een door mensen geverifieerde verzameling van real-world GitHub-issues. Voor zover wij weten, is dit de beste prestatie die tot nu toe is gerapporteerd voor middelgrote (<100B) LLMs, en zelfs vergelijkbaar met toonaangevende propriëtaire LLMs zoals GPT-4o. Verrassend genoeg heeft Llama3-SWE-RL, ondanks het uitvoeren van RL uitsluitend op software-evolutiedata, zelfs gegeneraliseerde redeneervaardigheden ontwikkeld. Het laat bijvoorbeeld verbeterde resultaten zien op vijf taken buiten het domein, namelijk functieprogrammering, bibliotheekgebruik, coderedenering, wiskunde en algemeen taalbegrip, terwijl een baseline met supervised finetuning gemiddeld zelfs tot prestatievermindering leidt. Over het algemeen opent SWE-RL een nieuwe richting om de redeneervaardigheden van LLMs te verbeteren door middel van reinforcement learning op massale software engineering-data.