Generieren, Filtern, Steuern, Wiederholen: Eine umfassende Übersicht zu Rollout-Strategien für Reinforcement Learning mit großen Sprachmodellen
Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning
April 8, 2026
Autoren: Rohan Surana, Gagan Mundada, Xunyi Jiang, Chuhan Wang, Zhenwei Tang, Difan Jiao, Zihan Huang, Yuxin Xiong, Junda Wu, Sheldon Yu, Xintong Li, Raghav Jain, Nikki Kuang, Sizhe Zhou, Bowen Jin, Zhendong Chu, Tong Yu, Ryan Rossi, Kuan-Hao Huang, Jingbo Shang, Jiawei Han, Julian McAuley
cs.AI
Zusammenfassung
Reinforcement Learning (RL) hat sich zu einem zentralen Werkzeug im Nachtraining entwickelt, um die Fähigkeiten großer Sprachmodelle (LLMs) zum logischen Schlussfolgern zu verbessern. In diesen Systemen bestimmt der Rollout – die von einem Prompt bis zum Abbruch abgetastete Trajektorie, einschließlich Zwischenschritten und optionaler Werkzeug- oder Umgebungsinteraktionen – die Daten, aus denen der Optimierer lernt; dennoch wird das Rollout-Design oft unzureichend dokumentiert. Dieser Übersichtsartikel bietet eine optimiererunabhängige Betrachtung von Rollout-Strategien für das RL-basierte Nachtraining von LLMs im Bereich des logischen Denkens. Wir formalisieren Rollout-Pipelines mit einheitlicher Notation und führen Generate-Filter-Control-Replay (GFCR) ein, eine Lebenszyklus-Taxonomie, die Rollout-Pipelines in vier modulare Stufen zerlegt: Generate schlägt Kandidaten-Trajektorien und -Topologien vor; Filter konstruiert Zwischensignale mittels Verifizierern, Beurteilern oder Kritikern; Control verteilt Rechenressourcen und trifft Fortsetzungs-, Verzweigungs- und Abbruchsentscheidungen unter Budgetvorgaben; und Replay bewahrt und wiederverwendet Artefakte über Rollouts hinweg ohne Gewichtsaktualisierungen, einschließlich sich selbst entwickelnder Lehrpläne, die autonom neue Trainingsaufgaben generieren. Wir ergänzen GFCR durch eine Kriterien-Taxonomie aus Zuverlässigkeit, Abdeckung und Kostensensitivität, die Rollout-Kompromisse charakterisiert. Mit diesem Rahmenwerk synthetisieren wir Methoden, die RL mit verifizierbaren Belohnungen, Prozessüberwachung, beurteilergestütztem Gating, gelenkten und Baum-/Segment-Rollouts, adaptiver Rechenressourcenzuteilung, Early-Exit- und partiellen Rollouts, Durchsatzoptimierung sowie Wiederverwendung und Neuzusammensetzung zur Selbstverbesserung umfassen. Wir untermauern das Rahmenwerk mit Fallstudien aus den Bereichen Mathematik, Code/SQL, multimodales Schließen, werkzeugnutzende Agenten und Benchmark-Tests für agentenbasierte Fähigkeiten, die Fähigkeitsinduktion, -wiederverwendung und transferübergreifenden Transfer evaluieren. Abschließend stellen wir einen Diagnoseindex bereit, der häufige Rollout-Probleme GFCR-Modulen und Lösungshebeln zuordnet, und benennen offene Herausforderungen für den Aufbau reproduzierbarer, recheneffizienter und vertrauenswürdiger Rollout-Pipelines.
English
Reinforcement learning (RL) has become a central post-training tool for improving the reasoning abilities of large language models (LLMs). In these systems, the rollout, the trajectory sampled from a prompt to termination, including intermediate reasoning steps and optional tool or environment interactions, determines the data the optimizer learns from, yet rollout design is often underreported. This survey provides an optimizer-agnostic view of rollout strategies for RL-based post-training of reasoning LLMs. We formalize rollout pipelines with unified notation and introduce Generate-Filter-Control-Replay (GFCR), a lifecycle taxonomy that decomposes rollout pipelines into four modular stages: Generate proposes candidate trajectories and topologies; Filter constructs intermediate signals via verifiers, judges, critics; Control allocates compute and makes continuation/branching/stopping decisions under budgets; and Replay retains and reuses artifacts across rollouts without weight updates, including self-evolving curricula that autonomously generate new training tasks. We complement GFCR with a criterion taxonomy of reliability, coverage, and cost sensitivity that characterizes rollout trade-offs. Using this framework, we synthesize methods spanning RL with verifiable rewards, process supervision, judge-based gating, guided and tree/segment rollouts, adaptive compute allocation, early-exit and partial rollouts, throughput optimization, and replay/recomposition for self-improvement. We ground the framework with case studies in math, code/SQL, multimodal reasoning, tool-using agents, and agentic skill benchmarks that evaluate skill induction, reuse, and cross-task transfer. Finally, we provide a diagnostic index that maps common rollout pathologies to GFCR modules and mitigation levers, alongside open challenges for building reproducible, compute-efficient, and trustworthy rollout pipelines.