Astrolabe: Direcionando o Aprendizado por Reforço de Processo Direto para Modelos Autoregressivos de Vídeo Destilados

Resumo

Os modelos de vídeo autoregressivos (AR) destilados permitem uma geração eficiente em streaming, mas frequentemente se desalinharam das preferências visuais humanas. As estruturas de aprendizagem por reforço (RL) existentes não são naturalmente adequadas a estas arquiteturas, geralmente exigindo uma redestilação dispendiosa ou uma otimização do processo reverso acoplada a solvers que introduz sobrecarga computacional e de memória considerável. Apresentamos o Astrolabe, uma estrutura de RL online eficiente, concebida para modelos AR destilados. Para superar os estrangulamentos existentes, introduzimos uma formulação de RL baseada no processo direto através de um ajuste fino com consciência do negativo. Ao contrastar amostras positivas e negativas diretamente nos pontos finais de inferência, esta abordagem estabelece uma direção de melhoria de política implícita sem exigir o desdobramento do processo reverso. Para escalar este alinhamento para vídeos longos, propomos um esquema de treino em streaming que gera sequências progressivamente através de uma cache KV rolante, aplicando atualizações de RL exclusivamente a janelas de clipes locais, enquanto condiciona o contexto anterior para garantir coerência de longo alcance. Finalmente, para mitigar a deturpação de recompensas (reward hacking), integramos um objetivo de múltiplas recompensas estabilizado por uma regularização seletiva com consciência da incerteza e atualizações dinâmicas de referência. Experiências extensivas demonstram que o nosso método melhora consistentemente a qualidade da geração em vários modelos de vídeo AR destilados, servindo como uma solução de alinhamento robusta e escalável.

English

Distilled autoregressive (AR) video models enable efficient streaming generation but frequently misalign with human visual preferences. Existing reinforcement learning (RL) frameworks are not naturally suited to these architectures, typically requiring either expensive re-distillation or solver-coupled reverse-process optimization that introduces considerable memory and computational overhead. We present Astrolabe, an efficient online RL framework tailored for distilled AR models. To overcome existing bottlenecks, we introduce a forward-process RL formulation based on negative-aware fine-tuning. By contrasting positive and negative samples directly at inference endpoints, this approach establishes an implicit policy improvement direction without requiring reverse-process unrolling. To scale this alignment to long videos, we propose a streaming training scheme that generates sequences progressively via a rolling KV-cache, applying RL updates exclusively to local clip windows while conditioning on prior context to ensure long-range coherence. Finally, to mitigate reward hacking, we integrate a multi-reward objective stabilized by uncertainty-aware selective regularization and dynamic reference updates. Extensive experiments demonstrate that our method consistently enhances generation quality across multiple distilled AR video models, serving as a robust and scalable alignment solution.

Astrolabe: Direcionando o Aprendizado por Reforço de Processo Direto para Modelos Autoregressivos de Vídeo Destilados

Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models

Resumo

Support