SWE-RL: Avanzando en el razonamiento de LLM mediante aprendizaje por refuerzo en la evolución de software abierto

Resumen

El reciente lanzamiento de DeepSeek-R1 ha demostrado el inmenso potencial del aprendizaje por refuerzo (RL, por sus siglas en inglés) para mejorar las capacidades de razonamiento general de los modelos de lenguaje de gran escala (LLMs). Si bien DeepSeek-R1 y otros trabajos posteriores se centran principalmente en aplicar RL a problemas de programación competitiva y matemáticas, este artículo presenta SWE-RL, el primer enfoque para escalar el razonamiento basado en RL de LLMs en el ámbito de la ingeniería de software del mundo real. Aprovechando una recompensa basada en reglas ligeras (por ejemplo, la puntuación de similitud entre la solución verdadera y la generada por el LLM), SWE-RL permite que los LLMs recuperen de manera autónoma los procesos de razonamiento y las soluciones de un desarrollador al aprender de extensos datos de evolución de software de código abierto: el registro de todo el ciclo de vida de un software, incluyendo sus instantáneas de código, cambios de código y eventos como problemas y solicitudes de extracción. Entrenado sobre Llama 3, nuestro modelo de razonamiento resultante, Llama3-SWE-RL-70B, alcanza una tasa de resolución del 41.0% en SWE-bench Verified, una colección verificada por humanos de problemas reales de GitHub. Hasta donde sabemos, este es el mejor rendimiento reportado para LLMs de tamaño mediano (<100B) hasta la fecha, incluso comparable a LLMs propietarios líderes como GPT-4o. Sorprendentemente, a pesar de realizar RL únicamente en datos de evolución de software, Llama3-SWE-RL ha desarrollado habilidades de razonamiento generalizado. Por ejemplo, muestra mejoras en cinco tareas fuera de su dominio, a saber, codificación de funciones, uso de bibliotecas, razonamiento de código, matemáticas y comprensión general del lenguaje, mientras que una línea base de ajuste fino supervisado incluso conduce a una degradación del rendimiento en promedio. En general, SWE-RL abre una nueva dirección para mejorar las capacidades de razonamiento de los LLMs mediante el aprendizaje por refuerzo en datos masivos de ingeniería de software.

English

The recent DeepSeek-R1 release has demonstrated the immense potential of reinforcement learning (RL) in enhancing the general reasoning capabilities of large language models (LLMs). While DeepSeek-R1 and other follow-up work primarily focus on applying RL to competitive coding and math problems, this paper introduces SWE-RL, the first approach to scale RL-based LLM reasoning for real-world software engineering. Leveraging a lightweight rule-based reward (e.g., the similarity score between ground-truth and LLM-generated solutions), SWE-RL enables LLMs to autonomously recover a developer's reasoning processes and solutions by learning from extensive open-source software evolution data -- the record of a software's entire lifecycle, including its code snapshots, code changes, and events such as issues and pull requests. Trained on top of Llama 3, our resulting reasoning model, Llama3-SWE-RL-70B, achieves a 41.0% solve rate on SWE-bench Verified -- a human-verified collection of real-world GitHub issues. To our knowledge, this is the best performance reported for medium-sized (<100B) LLMs to date, even comparable to leading proprietary LLMs like GPT-4o. Surprisingly, despite performing RL solely on software evolution data, Llama3-SWE-RL has even emerged with generalized reasoning skills. For example, it shows improved results on five out-of-domain tasks, namely, function coding, library use, code reasoning, mathematics, and general language understanding, whereas a supervised-finetuning baseline even leads to performance degradation on average. Overall, SWE-RL opens up a new direction to improve the reasoning capabilities of LLMs through reinforcement learning on massive software engineering data.

SWE-RL: Avanzando en el razonamiento de LLM mediante aprendizaje por refuerzo en la evolución de software abierto

SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution

Resumen

Support