SWE-RL: Avanzando en el razonamiento de LLM mediante aprendizaje por refuerzo en la evolución de software abierto
SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution
February 25, 2025
Autores: Yuxiang Wei, Olivier Duchenne, Jade Copet, Quentin Carbonneaux, Lingming Zhang, Daniel Fried, Gabriel Synnaeve, Rishabh Singh, Sida I. Wang
cs.AI
Resumen
El reciente lanzamiento de DeepSeek-R1 ha demostrado el inmenso potencial del aprendizaje por refuerzo (RL, por sus siglas en inglés) para mejorar las capacidades de razonamiento general de los modelos de lenguaje de gran escala (LLMs). Si bien DeepSeek-R1 y otros trabajos posteriores se centran principalmente en aplicar RL a problemas de programación competitiva y matemáticas, este artículo presenta SWE-RL, el primer enfoque para escalar el razonamiento basado en RL de LLMs en el ámbito de la ingeniería de software del mundo real. Aprovechando una recompensa basada en reglas ligeras (por ejemplo, la puntuación de similitud entre la solución verdadera y la generada por el LLM), SWE-RL permite que los LLMs recuperen de manera autónoma los procesos de razonamiento y las soluciones de un desarrollador al aprender de extensos datos de evolución de software de código abierto: el registro de todo el ciclo de vida de un software, incluyendo sus instantáneas de código, cambios de código y eventos como problemas y solicitudes de extracción. Entrenado sobre Llama 3, nuestro modelo de razonamiento resultante, Llama3-SWE-RL-70B, alcanza una tasa de resolución del 41.0% en SWE-bench Verified, una colección verificada por humanos de problemas reales de GitHub. Hasta donde sabemos, este es el mejor rendimiento reportado para LLMs de tamaño mediano (<100B) hasta la fecha, incluso comparable a LLMs propietarios líderes como GPT-4o. Sorprendentemente, a pesar de realizar RL únicamente en datos de evolución de software, Llama3-SWE-RL ha desarrollado habilidades de razonamiento generalizado. Por ejemplo, muestra mejoras en cinco tareas fuera de su dominio, a saber, codificación de funciones, uso de bibliotecas, razonamiento de código, matemáticas y comprensión general del lenguaje, mientras que una línea base de ajuste fino supervisado incluso conduce a una degradación del rendimiento en promedio. En general, SWE-RL abre una nueva dirección para mejorar las capacidades de razonamiento de los LLMs mediante el aprendizaje por refuerzo en datos masivos de ingeniería de software.
English
The recent DeepSeek-R1 release has demonstrated the immense potential of
reinforcement learning (RL) in enhancing the general reasoning capabilities of
large language models (LLMs). While DeepSeek-R1 and other follow-up work
primarily focus on applying RL to competitive coding and math problems, this
paper introduces SWE-RL, the first approach to scale RL-based LLM reasoning for
real-world software engineering. Leveraging a lightweight rule-based reward
(e.g., the similarity score between ground-truth and LLM-generated solutions),
SWE-RL enables LLMs to autonomously recover a developer's reasoning processes
and solutions by learning from extensive open-source software evolution data --
the record of a software's entire lifecycle, including its code snapshots, code
changes, and events such as issues and pull requests. Trained on top of Llama
3, our resulting reasoning model, Llama3-SWE-RL-70B, achieves a 41.0% solve
rate on SWE-bench Verified -- a human-verified collection of real-world GitHub
issues. To our knowledge, this is the best performance reported for
medium-sized (<100B) LLMs to date, even comparable to leading proprietary LLMs
like GPT-4o. Surprisingly, despite performing RL solely on software evolution
data, Llama3-SWE-RL has even emerged with generalized reasoning skills. For
example, it shows improved results on five out-of-domain tasks, namely,
function coding, library use, code reasoning, mathematics, and general language
understanding, whereas a supervised-finetuning baseline even leads to
performance degradation on average. Overall, SWE-RL opens up a new direction to
improve the reasoning capabilities of LLMs through reinforcement learning on
massive software engineering data.Summary
AI-Generated Summary