Астролябия: Управление обучением с подкреплением в прямом процессе для дистиллированных авторегрессивных моделей видео

Аннотация

Дистиллированные авторегрессионные (AR) модели видео позволяют эффективно генерировать потоковое видео, но часто не соответствуют визуальным предпочтениям человека. Существующие фреймворки обучения с подкреплением (RL) не подходят для этих архитектур естественным образом, как правило, требуя либо дорогостоящей повторной дистилляции, либо оптимизации обратного процесса, сопряженной с решателем, что влечет значительные накладные расходы по памяти и вычислениям. Мы представляем Astrolabe — эффективный онлайн-фреймворк RL, разработанный специально для дистиллированных AR-моделей. Чтобы преодолеть существующие узкие места, мы вводим формулировку RL для прямого процесса на основе негативно-осознанной тонкой настройки. Сопоставляя позитивные и негативные сэмплы непосредственно в конечных точках вывода, этот подход устанавливает неявное направление улучшения политики без необходимости развертывания обратного процесса. Для масштабирования этого согласования на длинные видео мы предлагаем схему потокового обучения, которая постепенно генерирует последовательности с помощью скользящего KV-кэша, применяя RL-обновления исключительно к локальным клип-окнам, одновременно conditioning на предшествующий контекст для обеспечения долгосрочной связности. Наконец, для снижения риска взлома функции вознаграждения мы интегрируем многокритериальную целевую функцию, стабилизированную с помощью селективной регуляризации с учетом неопределенности и динамических обновлений референсов. Многочисленные эксперименты демонстрируют, что наш метод последовательно улучшает качество генерации для различных дистиллированных AR-моделей видео, выступая в качестве надежного и масштабируемого решения для согласования.

English

Distilled autoregressive (AR) video models enable efficient streaming generation but frequently misalign with human visual preferences. Existing reinforcement learning (RL) frameworks are not naturally suited to these architectures, typically requiring either expensive re-distillation or solver-coupled reverse-process optimization that introduces considerable memory and computational overhead. We present Astrolabe, an efficient online RL framework tailored for distilled AR models. To overcome existing bottlenecks, we introduce a forward-process RL formulation based on negative-aware fine-tuning. By contrasting positive and negative samples directly at inference endpoints, this approach establishes an implicit policy improvement direction without requiring reverse-process unrolling. To scale this alignment to long videos, we propose a streaming training scheme that generates sequences progressively via a rolling KV-cache, applying RL updates exclusively to local clip windows while conditioning on prior context to ensure long-range coherence. Finally, to mitigate reward hacking, we integrate a multi-reward objective stabilized by uncertainty-aware selective regularization and dynamic reference updates. Extensive experiments demonstrate that our method consistently enhances generation quality across multiple distilled AR video models, serving as a robust and scalable alignment solution.

Астролябия: Управление обучением с подкреплением в прямом процессе для дистиллированных авторегрессивных моделей видео

Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models

Аннотация

Support