Astrolabe : Orientation du Renforcement par Processus Avant pour les Modèles Autoregressifs Distillés de Vidéo

Résumé

Les modèles vidéo autorégressifs (AR) distillés permettent une génération efficace en flux continu, mais s'alignent souvent mal avec les préférences visuelles humaines. Les cadres d'apprentissage par renforcement (RL) existants ne sont pas naturellement adaptés à ces architectures, nécessitant généralement soit une re-distillation coûteuse, soit une optimisation du processus inverse couplée à un solveur qui introduit des surcharges mémoire et computationnelles considérables. Nous présentons Astrolabe, un cadre RL en ligne efficace conçu pour les modèles AR distillés. Pour surmonter les goulots d'étranglement existants, nous introduisons une formulation RL basée sur le processus direct via un réglage fin négatif. En confrontant directement les échantillons positifs et négatifs aux points d'inférence, cette approche établit une direction d'amélioration implicite de la politique sans nécessiter de déroulement du processus inverse. Pour adapter cet alignement à de longues vidéos, nous proposons un schéma d'entraînement en flux continu qui génère les séquences progressivement via un cache KV glissant, en appliquant les mises à jour RL exclusivement sur des fenêtres de clips locales tout en conditionnant sur le contexte antérieur pour assurer une cohérence à long terme. Enfin, pour atténuer le détournement de récompense, nous intégrons un objectif à récompenses multiples stabilisé par une régularisation sélective tenant compte de l'incertitude et des mises à jour dynamiques de référence. Des expériences approfondies démontrent que notre méthode améliore constamment la qualité de génération sur plusieurs modèles vidéo AR distillés, servant de solution d'alignement robuste et évolutive.

English

Distilled autoregressive (AR) video models enable efficient streaming generation but frequently misalign with human visual preferences. Existing reinforcement learning (RL) frameworks are not naturally suited to these architectures, typically requiring either expensive re-distillation or solver-coupled reverse-process optimization that introduces considerable memory and computational overhead. We present Astrolabe, an efficient online RL framework tailored for distilled AR models. To overcome existing bottlenecks, we introduce a forward-process RL formulation based on negative-aware fine-tuning. By contrasting positive and negative samples directly at inference endpoints, this approach establishes an implicit policy improvement direction without requiring reverse-process unrolling. To scale this alignment to long videos, we propose a streaming training scheme that generates sequences progressively via a rolling KV-cache, applying RL updates exclusively to local clip windows while conditioning on prior context to ensure long-range coherence. Finally, to mitigate reward hacking, we integrate a multi-reward objective stabilized by uncertainty-aware selective regularization and dynamic reference updates. Extensive experiments demonstrate that our method consistently enhances generation quality across multiple distilled AR video models, serving as a robust and scalable alignment solution.

Astrolabe : Orientation du Renforcement par Processus Avant pour les Modèles Autoregressifs Distillés de Vidéo

Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models

Résumé

Support