SWE-RL: Avanzando en el razonamiento de LLM mediante aprendizaje por refuerzo en la evolución de software abiertoSWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open
Software Evolution
El reciente lanzamiento de DeepSeek-R1 ha demostrado el inmenso potencial del aprendizaje por refuerzo (RL, por sus siglas en inglés) para mejorar las capacidades de razonamiento general de los modelos de lenguaje de gran escala (LLMs). Si bien DeepSeek-R1 y otros trabajos posteriores se centran principalmente en aplicar RL a problemas de programación competitiva y matemáticas, este artículo presenta SWE-RL, el primer enfoque para escalar el razonamiento basado en RL de LLMs en el ámbito de la ingeniería de software del mundo real. Aprovechando una recompensa basada en reglas ligeras (por ejemplo, la puntuación de similitud entre la solución verdadera y la generada por el LLM), SWE-RL permite que los LLMs recuperen de manera autónoma los procesos de razonamiento y las soluciones de un desarrollador al aprender de extensos datos de evolución de software de código abierto: el registro de todo el ciclo de vida de un software, incluyendo sus instantáneas de código, cambios de código y eventos como problemas y solicitudes de extracción. Entrenado sobre Llama 3, nuestro modelo de razonamiento resultante, Llama3-SWE-RL-70B, alcanza una tasa de resolución del 41.0% en SWE-bench Verified, una colección verificada por humanos de problemas reales de GitHub. Hasta donde sabemos, este es el mejor rendimiento reportado para LLMs de tamaño mediano (<100B) hasta la fecha, incluso comparable a LLMs propietarios líderes como GPT-4o. Sorprendentemente, a pesar de realizar RL únicamente en datos de evolución de software, Llama3-SWE-RL ha desarrollado habilidades de razonamiento generalizado. Por ejemplo, muestra mejoras en cinco tareas fuera de su dominio, a saber, codificación de funciones, uso de bibliotecas, razonamiento de código, matemáticas y comprensión general del lenguaje, mientras que una línea base de ajuste fino supervisado incluso conduce a una degradación del rendimiento en promedio. En general, SWE-RL abre una nueva dirección para mejorar las capacidades de razonamiento de los LLMs mediante el aprendizaje por refuerzo en datos masivos de ingeniería de software.