Générer, Filtrer, Contrôler, Rejouer : Une Étude Complète des Stratégies de Déploiement pour l'Apprentissage par Renforcement des Grands Modèles de Langage

Résumé

L'apprentissage par renforcement (RL) est devenu un outil central de post-entraînement pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Dans ces systèmes, le *rollout* – la trajectoire échantillonnée à partir d'une instruction jusqu'à son terme, incluant les étapes de raisonnement intermédiaires et les interactions facultatives avec des outils ou l'environnement – détermine les données à partir desquelles l'optimiseur apprend. Pourtant, la conception des *rollouts* est souvent sous-déclarée. Cette étude propose une vision agnostique de l'optimiseur concernant les stratégies de *rollout* pour le post-entraînement par RL des LLM de raisonnement. Nous formalisons les pipelines de *rollout* avec une notation unifiée et introduisons **Generate-Filter-Control-Replay (GFCR)**, une taxonomie de cycle de vie qui décompose ces pipelines en quatre étapes modulaires : **Generate** propose des trajectoires et topologies candidates ; **Filter** construit des signaux intermédiaires via des vérificateurs, juges ou critiques ; **Control** alloue le calcul et prend des décisions de continuation/ramification/arrêt sous contraintes budgétaires ; et **Replay** conserve et réutilise des artefacts entre les *rollouts* sans mise à jour des poids, incluant des curricula auto-évolutifs qui génèrent automatiquement de nouvelles tâches d'entraînement. Nous complétons GFCR par une taxonomie de critères – fiabilité, couverture et sensibilité au coût – qui caractérise les compromis des *rollouts*. En utilisant ce cadre, nous synthétisons des méthodes couvrant le RL avec récompenses vérifiables, la supervision du processus, le jugement par portail, les *rollouts* guidés et arborescents/segmentés, l'allocation adaptive de calcul, les *rollouts* à sortie anticipée et partiels, l'optimisation du débit, et la relecture/recomposition pour l'auto-amélioration. Nous ancrons le cadre avec des études de cas en mathématiques, code/SQL, raisonnement multimodal, agents utilisant des outils, et des benchmarks de compétences agentiques évaluant l'induction, la réutilisation et le transfert inter-tâches de compétences. Enfin, nous fournissons un index diagnostique qui cartographie les pathologies courantes des *rollouts* vers les modules GFCR et les leviers d'atténuation, ainsi que des défis ouverts pour construire des pipelines de *rollout* reproductibles, efficaces en calcul et dignes de confiance.

English

Reinforcement learning (RL) has become a central post-training tool for improving the reasoning abilities of large language models (LLMs). In these systems, the rollout, the trajectory sampled from a prompt to termination, including intermediate reasoning steps and optional tool or environment interactions, determines the data the optimizer learns from, yet rollout design is often underreported. This survey provides an optimizer-agnostic view of rollout strategies for RL-based post-training of reasoning LLMs. We formalize rollout pipelines with unified notation and introduce Generate-Filter-Control-Replay (GFCR), a lifecycle taxonomy that decomposes rollout pipelines into four modular stages: Generate proposes candidate trajectories and topologies; Filter constructs intermediate signals via verifiers, judges, critics; Control allocates compute and makes continuation/branching/stopping decisions under budgets; and Replay retains and reuses artifacts across rollouts without weight updates, including self-evolving curricula that autonomously generate new training tasks. We complement GFCR with a criterion taxonomy of reliability, coverage, and cost sensitivity that characterizes rollout trade-offs. Using this framework, we synthesize methods spanning RL with verifiable rewards, process supervision, judge-based gating, guided and tree/segment rollouts, adaptive compute allocation, early-exit and partial rollouts, throughput optimization, and replay/recomposition for self-improvement. We ground the framework with case studies in math, code/SQL, multimodal reasoning, tool-using agents, and agentic skill benchmarks that evaluate skill induction, reuse, and cross-task transfer. Finally, we provide a diagnostic index that maps common rollout pathologies to GFCR modules and mitigation levers, alongside open challenges for building reproducible, compute-efficient, and trustworthy rollout pipelines.

Générer, Filtrer, Contrôler, Rejouer : Une Étude Complète des Stratégies de Déploiement pour l'Apprentissage par Renforcement des Grands Modèles de Langage

Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning

Résumé

Support