Astrolabe: Orientare l'Apprendimento per Rinforzo a Processo Diretto per Modelli Video Autoregressivi Distillati

Abstract

I modelli video autoregressivi (AR) distillati consentono una generazione efficiente in streaming, ma spesso risultano disallineati rispetto alle preferenze visive umane. I framework di apprendimento per rinforzo (RL) esistenti non si adattano naturalmente a queste architetture, richiedendo tipicamente una costosa ri-distillazione o un'ottimizzazione del processo inverso accoppiata a un solver che introduce un notevole sovraccarico computazionale e di memoria. Presentiamo Astrolabe, un framework RL online efficiente progettato specificamente per modelli AR distillati. Per superare i colli di bottiglia esistenti, introduciamo una formulazione RL basata sul processo diretto e su una messa a punto *negative-aware*. Contrastando campioni positivi e negativi direttamente agli endpoint di inferenza, questo approccio stabilisce una direzione di miglioramento della politica implicita senza richiedere lo svolgimento del processo inverso. Per scalare questo allineamento a video lunghi, proponiamo uno schema di addestramento in streaming che genera sequenze progressivamente tramite un *rolling KV-cache*, applicando aggiornamenti RL esclusivamente a finestre di clip locali mentre si condiziona sul contesto precedente per garantire coerenza a lungo raggio. Infine, per mitigare il *reward hacking*, integriamo un obiettivo multi-ricompensa stabilizzato da una regolarizzazione selettiva *uncertainty-aware* e aggiornamenti dinamici del riferimento. Esperimenti estensivi dimostrano che il nostro metodo migliora costantemente la qualità della generazione su molteplici modelli video AR distillati, rappresentando una soluzione di allineamento robusta e scalabile.

English

Distilled autoregressive (AR) video models enable efficient streaming generation but frequently misalign with human visual preferences. Existing reinforcement learning (RL) frameworks are not naturally suited to these architectures, typically requiring either expensive re-distillation or solver-coupled reverse-process optimization that introduces considerable memory and computational overhead. We present Astrolabe, an efficient online RL framework tailored for distilled AR models. To overcome existing bottlenecks, we introduce a forward-process RL formulation based on negative-aware fine-tuning. By contrasting positive and negative samples directly at inference endpoints, this approach establishes an implicit policy improvement direction without requiring reverse-process unrolling. To scale this alignment to long videos, we propose a streaming training scheme that generates sequences progressively via a rolling KV-cache, applying RL updates exclusively to local clip windows while conditioning on prior context to ensure long-range coherence. Finally, to mitigate reward hacking, we integrate a multi-reward objective stabilized by uncertainty-aware selective regularization and dynamic reference updates. Extensive experiments demonstrate that our method consistently enhances generation quality across multiple distilled AR video models, serving as a robust and scalable alignment solution.

Astrolabe: Orientare l'Apprendimento per Rinforzo a Processo Diretto per Modelli Video Autoregressivi Distillati

Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models

Abstract

Support