Auto Forçamento: Reduzindo a Lacuna entre Treino e Teste em Difusão Autoregressiva de Vídeo

Resumo

Apresentamos o Self Forcing, um novo paradigma de treinamento para modelos de difusão autoregressivos de vídeo. Ele aborda o problema de longa data do viés de exposição, onde modelos treinados em contexto de verdade absoluta precisam gerar sequências condicionadas em suas próprias saídas imperfeitas durante a inferência. Diferente de métodos anteriores que desnaturam quadros futuros com base em quadros de contexto de verdade absoluta, o Self Forcing condiciona a geração de cada quadro em saídas previamente auto-geradas, realizando um rollout autoregressivo com cache de chave-valor (KV) durante o treinamento. Essa estratégia permite supervisão por meio de uma perda holística no nível do vídeo que avalia diretamente a qualidade de toda a sequência gerada, em vez de depender exclusivamente de objetivos tradicionais por quadro. Para garantir eficiência no treinamento, empregamos um modelo de difusão de poucos passos juntamente com uma estratégia de truncamento de gradiente estocástico, equilibrando efetivamente custo computacional e desempenho. Além disso, introduzimos um mecanismo de cache KV rolante que permite extrapolação de vídeo autoregressiva eficiente. Experimentos extensivos demonstram que nossa abordagem alcança geração de vídeo em tempo real com latência de menos de um segundo em uma única GPU, enquanto iguala ou até supera a qualidade de geração de modelos de difusão significativamente mais lentos e não causais. Site do projeto: http://self-forcing.github.io/

English

We introduce Self Forcing, a novel training paradigm for autoregressive video diffusion models. It addresses the longstanding issue of exposure bias, where models trained on ground-truth context must generate sequences conditioned on their own imperfect outputs during inference. Unlike prior methods that denoise future frames based on ground-truth context frames, Self Forcing conditions each frame's generation on previously self-generated outputs by performing autoregressive rollout with key-value (KV) caching during training. This strategy enables supervision through a holistic loss at the video level that directly evaluates the quality of the entire generated sequence, rather than relying solely on traditional frame-wise objectives. To ensure training efficiency, we employ a few-step diffusion model along with a stochastic gradient truncation strategy, effectively balancing computational cost and performance. We further introduce a rolling KV cache mechanism that enables efficient autoregressive video extrapolation. Extensive experiments demonstrate that our approach achieves real-time streaming video generation with sub-second latency on a single GPU, while matching or even surpassing the generation quality of significantly slower and non-causal diffusion models. Project website: http://self-forcing.github.io/

Auto Forçamento: Reduzindo a Lacuna entre Treino e Teste em Difusão Autoregressiva de Vídeo

Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion

Resumo

Support