Astrolabio: Dirigiendo el Aprendizaje por Refuerzo de Proceso Directo para Modelos Autoregresivos de Video Destilados

Resumen

Los modelos de video autorregresivos (AR) destilados permiten una generación eficiente en streaming, pero frecuentemente se desalinean con las preferencias visuales humanas. Los marcos existentes de aprendizaje por refuerzo (RL) no se adaptan naturalmente a estas arquitecturas, ya que normalmente requieren una costosa re-destilación o una optimización del proceso inverso acoplada a solucionadores, lo que introduce una sobrecarga considerable de memoria y computación. Presentamos Astrolabe, un marco eficiente de RL en línea diseñado para modelos AR destilados. Para superar los cuellos de botella existentes, introducimos una formulación de RL basada en el proceso directo mediante ajuste fino con conciencia de lo negativo. Al contrastar muestras positivas y negativas directamente en los puntos finales de la inferencia, este enfoque establece una dirección de mejora de la política implícita sin requerir el despliegue del proceso inverso. Para escalar esta alineación a videos largos, proponemos un esquema de entrenamiento en streaming que genera secuencias progresivamente mediante una caché KV rotativa, aplicando actualizaciones de RL exclusivamente a ventanas de clips locales mientras se condiciona sobre el contexto previo para garantizar coherencia de largo alcance. Finalmente, para mitigar la piratería de recompensas, integramos un objetivo de múltiples recompensas estabilizado mediante una regularización selectiva consciente de la incertidumbre y actualizaciones dinámicas de referencia. Experimentos exhaustivos demuestran que nuestro método mejora consistentemente la calidad de la generación en múltiples modelos de video AR destilados, sirviendo como una solución de alineación robusta y escalable.

English

Distilled autoregressive (AR) video models enable efficient streaming generation but frequently misalign with human visual preferences. Existing reinforcement learning (RL) frameworks are not naturally suited to these architectures, typically requiring either expensive re-distillation or solver-coupled reverse-process optimization that introduces considerable memory and computational overhead. We present Astrolabe, an efficient online RL framework tailored for distilled AR models. To overcome existing bottlenecks, we introduce a forward-process RL formulation based on negative-aware fine-tuning. By contrasting positive and negative samples directly at inference endpoints, this approach establishes an implicit policy improvement direction without requiring reverse-process unrolling. To scale this alignment to long videos, we propose a streaming training scheme that generates sequences progressively via a rolling KV-cache, applying RL updates exclusively to local clip windows while conditioning on prior context to ensure long-range coherence. Finally, to mitigate reward hacking, we integrate a multi-reward objective stabilized by uncertainty-aware selective regularization and dynamic reference updates. Extensive experiments demonstrate that our method consistently enhances generation quality across multiple distilled AR video models, serving as a robust and scalable alignment solution.

Astrolabio: Dirigiendo el Aprendizaje por Refuerzo de Proceso Directo para Modelos Autoregresivos de Video Destilados

Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models

Resumen

Support