Generar, Filtrar, Controlar, Reproducir: Una Revisión Exhaustiva de las Estrategias de Despliegue para el Aprendizaje por Refuerzo en Modelos de Lenguaje Grandes
Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning
April 8, 2026
Autores: Rohan Surana, Gagan Mundada, Xunyi Jiang, Chuhan Wang, Zhenwei Tang, Difan Jiao, Zihan Huang, Yuxin Xiong, Junda Wu, Sheldon Yu, Xintong Li, Raghav Jain, Nikki Kuang, Sizhe Zhou, Bowen Jin, Zhendong Chu, Tong Yu, Ryan Rossi, Kuan-Hao Huang, Jingbo Shang, Jiawei Han, Julian McAuley
cs.AI
Resumen
El aprendizaje por refuerzo (RL) se ha convertido en una herramienta central de post-entrenamiento para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes (LLM). En estos sistemas, el *rollout* —la trayectoria muestreada desde un *prompt* hasta la terminación, que incluye pasos de razonamiento intermedios e interacciones opcionales con herramientas o entornos— determina los datos de los que aprende el optimizador, sin embargo, el diseño del *rollout* a menudo no se documenta adecuadamente. Esta revisión ofrece una perspectiva independiente del optimizador sobre las estrategias de *rollout* para el post-entrenamiento basado en RL de LLMs de razonamiento. Formalizamos las canalizaciones de *rollout* con una notación unificada e introducimos *Generate-Filter-Control-Replay* (GFCR), una taxonomía de ciclo de vida que descompone las canalizaciones de *rollout* en cuatro etapas modulares: *Generate* propone trayectorias y topologías candidatas; *Filter* construye señales intermedias mediante verificadores, jueces o críticos; *Control* asigna recursos computacionales y toma decisiones de continuación/ramificación/parada bajo restricciones presupuestarias; y *Replay* retiene y reutiliza artefactos entre *rollouts* sin actualizaciones de pesos, incluyendo currículos de auto-evolución que generan autónomamente nuevas tareas de entrenamiento. Complementamos GFCR con una taxonomía de criterios de fiabilidad, cobertura y sensibilidad al coste que caracteriza las compensaciones del *rollout*. Utilizando este marco, sintetizamos métodos que abarcan RL con recompensas verificables, supervisión de procesos, compuertas basadas en jueces, *rollouts* guiados y en árbol/segmento, asignación adaptativa de recursos computacionales, *rollouts* con salida temprana y parciales, optimización del rendimiento, y recomposición/reutilización para la auto-mejora. Fundamentamos el marco con estudios de casos en matemáticas, código/SQL, razonamiento multimodal, agentes que usan herramientas, y benchmarks de habilidades agentales que evalúan la inducción, reutilización y transferencia de habilidades entre tareas. Finalmente, proporcionamos un índice diagnóstico que mapea patologías comunes de los *rollouts* con los módulos GFCR y las palancas de mitigación, junto con desafíos abiertos para construir canalizaciones de *rollout* reproducibles, eficientes en cómputo y confiables.
English
Reinforcement learning (RL) has become a central post-training tool for improving the reasoning abilities of large language models (LLMs). In these systems, the rollout, the trajectory sampled from a prompt to termination, including intermediate reasoning steps and optional tool or environment interactions, determines the data the optimizer learns from, yet rollout design is often underreported. This survey provides an optimizer-agnostic view of rollout strategies for RL-based post-training of reasoning LLMs. We formalize rollout pipelines with unified notation and introduce Generate-Filter-Control-Replay (GFCR), a lifecycle taxonomy that decomposes rollout pipelines into four modular stages: Generate proposes candidate trajectories and topologies; Filter constructs intermediate signals via verifiers, judges, critics; Control allocates compute and makes continuation/branching/stopping decisions under budgets; and Replay retains and reuses artifacts across rollouts without weight updates, including self-evolving curricula that autonomously generate new training tasks. We complement GFCR with a criterion taxonomy of reliability, coverage, and cost sensitivity that characterizes rollout trade-offs. Using this framework, we synthesize methods spanning RL with verifiable rewards, process supervision, judge-based gating, guided and tree/segment rollouts, adaptive compute allocation, early-exit and partial rollouts, throughput optimization, and replay/recomposition for self-improvement. We ground the framework with case studies in math, code/SQL, multimodal reasoning, tool-using agents, and agentic skill benchmarks that evaluate skill induction, reuse, and cross-task transfer. Finally, we provide a diagnostic index that maps common rollout pathologies to GFCR modules and mitigation levers, alongside open challenges for building reproducible, compute-efficient, and trustworthy rollout pipelines.