Genereren, Filteren, Controleren, Herhalen: Een Uitgebreid Overzicht van Rolloutstrategieën voor Versterkend Leren bij Grote Taalmodellen
Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning
April 8, 2026
Auteurs: Rohan Surana, Gagan Mundada, Xunyi Jiang, Chuhan Wang, Zhenwei Tang, Difan Jiao, Zihan Huang, Yuxin Xiong, Junda Wu, Sheldon Yu, Xintong Li, Raghav Jain, Nikki Kuang, Sizhe Zhou, Bowen Jin, Zhendong Chu, Tong Yu, Ryan Rossi, Kuan-Hao Huang, Jingbo Shang, Jiawei Han, Julian McAuley
cs.AI
Samenvatting
Versterkend leren (Reinforcement Learning, RL) is een centraal post-traininginstrument geworden voor het verbeteren van de redeneervermogens van grote taalmmodellen (Large Language Models, LLM's). In deze systemen bepaalt de *rollout* – de trajectorie die wordt bemonsterd vanaf een prompt tot beëindiging, inclusief tussenliggende redeneerstappen en optionele interacties met tools of de omgeving – de data waar de optimalisator van leert. Desalniettemin wordt het ontwerp van rollouts vaak onderbelicht. Dit overzicht biedt een optimalisator-onafhankelijk perspectief op rollout-strategieën voor RL-gebaseerde post-training van redenerende LLM's.
We formaliseren rollout-pipelines met uniforme notatie en introduceren *Generate-Filter-Control-Replay* (GFCR), een levenscyceltaxonomie die rollout-pipelines ontleedt in vier modulaire fasen: *Generate* stelt kandidaat-trajectorieën en -topologieën voor; *Filter* construeert tussenliggende signalen via verifiers, judges, critics; *Control* wijst rekenkracht toe en neemt voortzettings-/vertakkings-/stopbeslissingen binnen budgetten; en *Replay* behoudt en hergebruikt artefacten tussen rollouts door, zonder gewichts-updates, inclusief zelf-evoluerende curricula die autonoom nieuwe trainingstaken genereren.
We complementeren GFCR met een criteriumtaxonomie van betrouwbaarheid, dekking en kostengevoeligheid die de rollout-afwegingen karakteriseert. Met dit raamwerk synthetiseren we methoden die zich uitstrekken over RL met verifieerbare beloningen, processupervisie, judge-gebaseerde gating, geleide en boom-/segmentrollouts, adaptieve rekenkrachttoewijzing, early-exit en partiële rollouts, doorvoeroptimalisatie, en replay/recompositie voor zelfverbetering. We verankeren het raamwerk met casestudies in wiskunde, code/SQL, multimodaal redeneren, toolgebruikende agents, en agent-vaardigheidsbenchmarks die vaardigheidsinductie, -hergebruik en kruis-taaktransfer evalueren. Ten slotte bieden we een diagnostische index die veelvoorkomende rollout-pathologieën koppelt aan GFCR-modules en mitigatie-hefbomen, naast open uitdagingen voor het bouwen van reproduceerbare, rekenkundig efficiënte en betrouwbare rollout-pipelines.
English
Reinforcement learning (RL) has become a central post-training tool for improving the reasoning abilities of large language models (LLMs). In these systems, the rollout, the trajectory sampled from a prompt to termination, including intermediate reasoning steps and optional tool or environment interactions, determines the data the optimizer learns from, yet rollout design is often underreported. This survey provides an optimizer-agnostic view of rollout strategies for RL-based post-training of reasoning LLMs. We formalize rollout pipelines with unified notation and introduce Generate-Filter-Control-Replay (GFCR), a lifecycle taxonomy that decomposes rollout pipelines into four modular stages: Generate proposes candidate trajectories and topologies; Filter constructs intermediate signals via verifiers, judges, critics; Control allocates compute and makes continuation/branching/stopping decisions under budgets; and Replay retains and reuses artifacts across rollouts without weight updates, including self-evolving curricula that autonomously generate new training tasks. We complement GFCR with a criterion taxonomy of reliability, coverage, and cost sensitivity that characterizes rollout trade-offs. Using this framework, we synthesize methods spanning RL with verifiable rewards, process supervision, judge-based gating, guided and tree/segment rollouts, adaptive compute allocation, early-exit and partial rollouts, throughput optimization, and replay/recomposition for self-improvement. We ground the framework with case studies in math, code/SQL, multimodal reasoning, tool-using agents, and agentic skill benchmarks that evaluate skill induction, reuse, and cross-task transfer. Finally, we provide a diagnostic index that maps common rollout pathologies to GFCR modules and mitigation levers, alongside open challenges for building reproducible, compute-efficient, and trustworthy rollout pipelines.