Генерация, фильтрация, контроль, воспроизведение: всесторонний обзор стратегий прогонов для обучения с подкреплением больших языковых моделей

Аннотация

Поводковое обучение (ПО) стало ключевым инструментом пост-обучения для улучшения способностей к рассуждению у больших языковых моделей (БЯМ). В таких системах rollout — траектория, сэмплируемая от промта до завершения, включая промежуточные шаги рассуждений и опциональные взаимодействия с инструментами или средой, — определяет данные, на которых обучается оптимизатор, однако проектированию rollout-ов часто уделяется недостаточно внимания. Данный обзор предлагает оптимизатор-агностичный взгляд на стратегии rollout-ов для пост-обучения БЯМ рассуждениям на основе ПО. Мы формализуем конвейеры rollout-ов с унифицированной нотацией и вводим GFCR (Generate-Filter-Control-Replay) — таксономию жизненного цикла, которая декомпозирует конвейеры rollout-ов на четыре модульных этапа: Generate предлагает кандидатные траектории и топологии; Filter конструирует промежуточные сигналы с помощью верификаторов, судей, критиков; Control распределяет вычислительные ресурсы и принимает решения о продолжении/ветвлении/остановке в рамках бюджетов; и Replay сохраняет и повторно использует артефакты между rollout-ами без обновления весов, включая саморазвивающиеся учебные планы, которые автономно генерируют новые учебные задачи. Мы дополняем GFCR таксономией критериев — надежность, покрытие и стоимостная чувствительность, — которая характеризует компромиссы rollout-ов. Используя этот фреймворк, мы синтезируем методы, охватывающие ПО с верифицируемыми наградами, процессный супервизинг, судейское гейтирование, управляемые и древовидные/сегментные rollout-ы, адассивное распределение вычислений, ранний выход и частичные rollout-ы, оптимизацию пропускной способности, а также повторное использование и рекомпозицию для самосовершенствования. Мы иллюстрируем фреймворк на примерах кейсов из областей математики, кода/SQL, мультимодальных рассуждений, агентов, использующих инструменты, и бенчмарков агентных навыков, которые оценивают индукцию, повторное использование и межзадачный перенос навыков. Наконец, мы предоставляем диагностический указатель, который связывает типичные патологии rollout-ов с модулями GFCR и рычагами их устранения, а также обозначаем открытые проблемы для создания воспроизводимых, вычислительно эффективных и надежных конвейеров rollout-ов.

English

Reinforcement learning (RL) has become a central post-training tool for improving the reasoning abilities of large language models (LLMs). In these systems, the rollout, the trajectory sampled from a prompt to termination, including intermediate reasoning steps and optional tool or environment interactions, determines the data the optimizer learns from, yet rollout design is often underreported. This survey provides an optimizer-agnostic view of rollout strategies for RL-based post-training of reasoning LLMs. We formalize rollout pipelines with unified notation and introduce Generate-Filter-Control-Replay (GFCR), a lifecycle taxonomy that decomposes rollout pipelines into four modular stages: Generate proposes candidate trajectories and topologies; Filter constructs intermediate signals via verifiers, judges, critics; Control allocates compute and makes continuation/branching/stopping decisions under budgets; and Replay retains and reuses artifacts across rollouts without weight updates, including self-evolving curricula that autonomously generate new training tasks. We complement GFCR with a criterion taxonomy of reliability, coverage, and cost sensitivity that characterizes rollout trade-offs. Using this framework, we synthesize methods spanning RL with verifiable rewards, process supervision, judge-based gating, guided and tree/segment rollouts, adaptive compute allocation, early-exit and partial rollouts, throughput optimization, and replay/recomposition for self-improvement. We ground the framework with case studies in math, code/SQL, multimodal reasoning, tool-using agents, and agentic skill benchmarks that evaluate skill induction, reuse, and cross-task transfer. Finally, we provide a diagnostic index that maps common rollout pathologies to GFCR modules and mitigation levers, alongside open challenges for building reproducible, compute-efficient, and trustworthy rollout pipelines.

Генерация, фильтрация, контроль, воспроизведение: всесторонний обзор стратегий прогонов для обучения с подкреплением больших языковых моделей

Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning

Аннотация

Support