Astrolabe: Sturing van Forward-Process Reinforcement Learning voor Gedistilleerde Autoregressieve Videomodellen

Samenvatting

Gedistilleerde autoregressieve (AR) videomodellen maken efficiënte streaming-generatie mogelijk, maar komen vaak niet overeen met menselijke visuele voorkeuren. Bestaande reinforcement learning (RL) frameworks zijn niet van nature geschikt voor deze architecturen; ze vereisen doorgaans ofwel kostbare her-distillatie, of optimalisatie van de omgekeerde proces gekoppeld aan een solver, wat aanzienlijke geheugen- en rekenoverhead met zich meebrengt. Wij presenteren Astrolabe, een efficiënt online RL-framework dat is toegesneden op gedistilleerde AR-modellen. Om bestaande knelpunten te overwinnen, introduceren we een RL-formulering voor het voorwaartse proces, gebaseerd op *negative-aware fine-tuning*. Door positieve en negatieve voorbeelden direct op de inferentie-eindpunten te contrasteren, vestigt deze aanpak een impliciete richting voor beleidsverbetering zonder dat het uitrollen van het omgekeerde proces vereist is. Om deze afstemming naar lange video's op te schalen, stellen we een *streaming* trainingsschema voor dat sequenties progressief genereert via een rollende KV-cache, waarbij RL-updates uitsluitend worden toegepast op lokale clipvensters, terwijl wordt geconditioneerd op eerdere context om coherentie op lange termijn te waarborgen. Ten slotte, om *reward hacking* tegen te gaan, integreren we een multi-reward doelstelling die wordt gestabiliseerd door onzekerheidsbewuste selectieve regularisatie en dynamische referentie-updates. Uitgebreide experimenten tonen aan dat onze methode de generatiekwaliteit consistent verbetert bij meerdere gedistilleerde AR-videomodellen, en fungeert als een robuuste en schaalbare afstemmingsoplossing.

English

Distilled autoregressive (AR) video models enable efficient streaming generation but frequently misalign with human visual preferences. Existing reinforcement learning (RL) frameworks are not naturally suited to these architectures, typically requiring either expensive re-distillation or solver-coupled reverse-process optimization that introduces considerable memory and computational overhead. We present Astrolabe, an efficient online RL framework tailored for distilled AR models. To overcome existing bottlenecks, we introduce a forward-process RL formulation based on negative-aware fine-tuning. By contrasting positive and negative samples directly at inference endpoints, this approach establishes an implicit policy improvement direction without requiring reverse-process unrolling. To scale this alignment to long videos, we propose a streaming training scheme that generates sequences progressively via a rolling KV-cache, applying RL updates exclusively to local clip windows while conditioning on prior context to ensure long-range coherence. Finally, to mitigate reward hacking, we integrate a multi-reward objective stabilized by uncertainty-aware selective regularization and dynamic reference updates. Extensive experiments demonstrate that our method consistently enhances generation quality across multiple distilled AR video models, serving as a robust and scalable alignment solution.

Astrolabe: Sturing van Forward-Process Reinforcement Learning voor Gedistilleerde Autoregressieve Videomodellen

Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models

Samenvatting

Support