Astrolabe: Steuerung des Forward-Process Reinforcement Learning für destillierte autoregressive Videomodelle

Zusammenfassung

Destillierte autoregressive (AR) Video-Modelle ermöglichen eine effiziente Streaming-Generierung, sind jedoch häufig nicht mit menschlichen visuellen Präferenzen abgestimmt. Bestehende Reinforcement-Learning (RL)-Frameworks sind für diese Architekturen nicht natürlich geeignet und erfordern typischerweise entweder teure Neu-Destillation oder eine lösungsgekoppelte Optimierung des Rückwärtsprozesses, die erheblichen Speicher- und Rechenaufwand verursacht. Wir stellen Astrolabe vor, ein effizientes Online-RL-Framework für destillierte AR-Modelle. Um bestehende Engpässe zu überwinden, führen wir eine RL-Formulierung für den Vorwärtsprozess ein, die auf negativitätsbewusstem Fine-Tuning basiert. Durch den direkten Vergleich positiver und negativer Beispiele an den Inferenz-Endpunkten etabliert dieser Ansatz eine implizite Richtung zur Verbesserung der Policy, ohne ein Ausrollen des Rückwärtsprozesses zu benötigen. Um dieses Alignment auf lange Videos zu skalieren, schlagen wir ein Streaming-Trainingsschema vor, das Sequenzen progressiv über einen rollenden KV-Cache generiert und RL-Aktualisierungen ausschließlich auf lokale Clip-Fenster anwendet, während auf vorherigen Kontext konditioniert wird, um langreichweitige Kohärenz sicherzustellen. Schließlich integrieren wir, um Reward Hacking zu mindern, ein Multi-Reward-Ziel, das durch unsicherheitsbewusste selektive Regularisierung und dynamische Referenzaktualisierungen stabilisiert wird. Umfangreiche Experimente zeigen, dass unsere Methode die Generierungsqualität über mehrere destillierte AR-Videomodelle hinweg konsistent verbessert und als robuste und skalierbare Alignment-Lösung dient.

English

Distilled autoregressive (AR) video models enable efficient streaming generation but frequently misalign with human visual preferences. Existing reinforcement learning (RL) frameworks are not naturally suited to these architectures, typically requiring either expensive re-distillation or solver-coupled reverse-process optimization that introduces considerable memory and computational overhead. We present Astrolabe, an efficient online RL framework tailored for distilled AR models. To overcome existing bottlenecks, we introduce a forward-process RL formulation based on negative-aware fine-tuning. By contrasting positive and negative samples directly at inference endpoints, this approach establishes an implicit policy improvement direction without requiring reverse-process unrolling. To scale this alignment to long videos, we propose a streaming training scheme that generates sequences progressively via a rolling KV-cache, applying RL updates exclusively to local clip windows while conditioning on prior context to ensure long-range coherence. Finally, to mitigate reward hacking, we integrate a multi-reward objective stabilized by uncertainty-aware selective regularization and dynamic reference updates. Extensive experiments demonstrate that our method consistently enhances generation quality across multiple distilled AR video models, serving as a robust and scalable alignment solution.

Astrolabe: Steuerung des Forward-Process Reinforcement Learning für destillierte autoregressive Videomodelle

Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models

Zusammenfassung

Support