Treinamento End-to-End para Difusão Autoregressiva de Vídeo via Autorreamostragem

Resumo

Os modelos de difusão de vídeo autoregressivos são promissores para simulação de mundos, mas são vulneráveis ao viés de exposição decorrente do descompasso entre treino e teste. Embora trabalhos recentes abordem isso via pós-treinamento, eles geralmente dependem de um modelo professor bidirecional ou discriminador online. Para alcançar uma solução de ponta a ponta, introduzimos o Forçamento por Reamostragem, uma estrutura livre de professor que permite treinar modelos de vídeo autoregressivos do zero e em escala. Central à nossa abordagem é um esquema de auto-reamostragem que simula erros do modelo no momento da inferência em quadros históricos durante o treinamento. Condicionado nessas histórias degradadas, uma máscara causal esparsa impõe causalidade temporal enquanto permite treinamento paralelo com perda de difusão a nível de quadro. Para facilitar a geração eficiente de longo horizonte, introduzimos ainda o roteamento de histórico, um mecanismo sem parâmetros que recupera dinamicamente os k quadros históricos mais relevantes para cada consulta. Experimentos demonstram que nossa abordagem alcança desempenho comparável às linhas de base baseadas em destilação, enquanto exibe consistência temporal superior em vídeos mais longos devido ao treinamento em comprimento nativo.

English

Autoregressive video diffusion models hold promise for world simulation but are vulnerable to exposure bias arising from the train-test mismatch. While recent works address this via post-training, they typically rely on a bidirectional teacher model or online discriminator. To achieve an end-to-end solution, we introduce Resampling Forcing, a teacher-free framework that enables training autoregressive video models from scratch and at scale. Central to our approach is a self-resampling scheme that simulates inference-time model errors on history frames during training. Conditioned on these degraded histories, a sparse causal mask enforces temporal causality while enabling parallel training with frame-level diffusion loss. To facilitate efficient long-horizon generation, we further introduce history routing, a parameter-free mechanism that dynamically retrieves the top-k most relevant history frames for each query. Experiments demonstrate that our approach achieves performance comparable to distillation-based baselines while exhibiting superior temporal consistency on longer videos owing to native-length training.

Treinamento End-to-End para Difusão Autoregressiva de Vídeo via Autorreamostragem

End-to-End Training for Autoregressive Video Diffusion via Self-Resampling

Resumo

Support