SWE-RL: Verbesserung des logischen Denkens von LLMs durch Reinforcement Learning bei offener SoftwareentwicklungSWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open
Software Evolution
Die kürzliche Veröffentlichung von DeepSeek-R1 hat das immense Potenzial von Reinforcement Learning (RL) zur Verbesserung der allgemeinen Denkfähigkeiten großer Sprachmodelle (LLMs) aufgezeigt. Während DeepSeek-R1 und nachfolgende Arbeiten sich hauptsächlich auf die Anwendung von RL auf wettbewerbsorientiertes Programmieren und mathematische Probleme konzentrieren, führt diese Arbeit SWE-RL ein, den ersten Ansatz, der RL-basiertes Denken von LLMs für die reale Softwareentwicklung skalierbar macht. Durch die Nutzung einer leichtgewichtigen regelbasierten Belohnung (z. B. der Ähnlichkeitswert zwischen der Ground-Truth und den von LLMs generierten Lösungen) ermöglicht SWE-RL LLMs, die Denkprozesse und Lösungen von Entwicklern autonom wiederherzustellen, indem sie aus umfangreichen Open-Source-Software-Evolutionsdaten lernen – der Aufzeichnung des gesamten Lebenszyklus einer Software, einschließlich ihrer Code-Snapshots, Code-Änderungen und Ereignisse wie Issues und Pull Requests. Unser darauf aufbauendes Denkmodell, Llama3-SWE-RL-70B, das auf Llama 3 trainiert wurde, erreicht eine Lösungrate von 41,0 % auf SWE-bench Verified – einer von Menschen verifizierten Sammlung realer GitHub-Issues. Nach unserem Wissen ist dies die bisher beste Leistung, die für mittelgroße LLMs (<100B) berichtet wurde, und sie ist sogar mit führenden proprietären LLMs wie GPT-4o vergleichbar. Überraschenderweise hat Llama3-SWE-RL, obwohl es RL ausschließlich auf Software-Evolutionsdaten durchgeführt hat, sogar verallgemeinerte Denkfähigkeiten entwickelt. Beispielsweise zeigt es verbesserte Ergebnisse bei fünf Aufgaben außerhalb des eigentlichen Anwendungsbereichs, nämlich Funktionscodierung, Bibliotheksnutzung, Code-Denken, Mathematik und allgemeines Sprachverständnis, während ein Baseline-Modell mit überwachtem Feinabstimmen im Durchschnitt sogar zu Leistungseinbußen führt. Insgesamt eröffnet SWE-RL eine neue Richtung, um die Denkfähigkeiten von LLMs durch Reinforcement Learning auf umfangreichen Softwareentwicklungsdaten zu verbessern.