Uniendo el Aprendizaje por Refuerzo en Línea y Fuera de Línea: Aprendizaje de Bandidos Contextuales para la Generación de Código en Múltiples Turnos
Bridging Online and Offline RL: Contextual Bandit Learning for Multi-Turn Code Generation
February 3, 2026
Autores: Ziru Chen, Dongdong Chen, Ruinan Jin, Yingbin Liang, Yujia Xie, Huan Sun
cs.AI
Resumen
Recientemente ha habido un interés significativo en la investigación sobre el entrenamiento de modelos de lenguaje grandes (LLMs) con aprendizaje por refuerzo (RL) en tareas del mundo real, como la generación de código en múltiples turnos. Si bien el RL en línea tiende a tener un mejor rendimiento que el RL fuera de línea, su mayor costo de entrenamiento e inestabilidad dificultan su adopción generalizada. En este artículo, partimos de la observación de que la generación de código en múltiples turnos puede formularse como un proceso de decisión de Markov recuperable en un solo paso y proponemos el aprendizaje de bandido contextual con trayectorias fuera de línea (Cobalt), un nuevo método que combina los beneficios del RL en línea y fuera de línea. Cobalt primero recopila trayectorias de generación de código utilizando un LLM de referencia y las divide en trayectorias parciales que sirven como prompts contextuales. Luego, durante el aprendizaje en línea de bandidos, el LLM se entrena para completar cada prompt de trayectoria parcial mediante la generación de código en un solo paso. Cobalt supera a dos líneas base de RL en línea multi-turno basadas en GRPO y VeRPO, y mejora sustancialmente a R1-Distill 8B y Qwen3 8B con incrementos de hasta 9.0 y 6.2 puntos absolutos en las puntuaciones Pass@1 en LiveCodeBench. Además, analizamos los comportamientos de hackeo de recompensas en contexto (in-context reward hacking) de los LLMs y aumentamos el entrenamiento de Cobalt con trayectorias perturbadas para mitigar este problema. En general, nuestros resultados demuestran que Cobalt es una solución prometedora para tareas de toma de decisiones iterativas, como la generación de código en múltiples turnos. Nuestro código y datos están disponibles en https://github.com/OSU-NLP-Group/cobalt.
English
Recently, there have been significant research interests in training large language models (LLMs) with reinforcement learning (RL) on real-world tasks, such as multi-turn code generation. While online RL tends to perform better than offline RL, its higher training cost and instability hinders wide adoption. In this paper, we build on the observation that multi-turn code generation can be formulated as a one-step recoverable Markov decision process and propose contextual bandit learning with offline trajectories (Cobalt), a new method that combines the benefits of online and offline RL. Cobalt first collects code generation trajectories using a reference LLM and divides them into partial trajectories as contextual prompts. Then, during online bandit learning, the LLM is trained to complete each partial trajectory prompt through single-step code generation. Cobalt outperforms two multi-turn online RL baselines based on GRPO and VeRPO, and substantially improves R1-Distill 8B and Qwen3 8B by up to 9.0 and 6.2 absolute Pass@1 scores on LiveCodeBench. Also, we analyze LLMs' in-context reward hacking behaviors and augment Cobalt training with perturbed trajectories to mitigate this issue. Overall, our results demonstrate Cobalt as a promising solution for iterative decision-making tasks like multi-turn code generation. Our code and data are available at https://github.com/OSU-NLP-Group/cobalt.