Auto Forçamento: Reduzindo a Lacuna entre Treino e Teste em Difusão Autoregressiva de Vídeo
Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion
June 9, 2025
Autores: Xun Huang, Zhengqi Li, Guande He, Mingyuan Zhou, Eli Shechtman
cs.AI
Resumo
Apresentamos o Self Forcing, um novo paradigma de treinamento para modelos de difusão autoregressivos de vídeo. Ele aborda o problema de longa data do viés de exposição, onde modelos treinados em contexto de verdade absoluta precisam gerar sequências condicionadas em suas próprias saídas imperfeitas durante a inferência. Diferente de métodos anteriores que desnaturam quadros futuros com base em quadros de contexto de verdade absoluta, o Self Forcing condiciona a geração de cada quadro em saídas previamente auto-geradas, realizando um rollout autoregressivo com cache de chave-valor (KV) durante o treinamento. Essa estratégia permite supervisão por meio de uma perda holística no nível do vídeo que avalia diretamente a qualidade de toda a sequência gerada, em vez de depender exclusivamente de objetivos tradicionais por quadro. Para garantir eficiência no treinamento, empregamos um modelo de difusão de poucos passos juntamente com uma estratégia de truncamento de gradiente estocástico, equilibrando efetivamente custo computacional e desempenho. Além disso, introduzimos um mecanismo de cache KV rolante que permite extrapolação de vídeo autoregressiva eficiente. Experimentos extensivos demonstram que nossa abordagem alcança geração de vídeo em tempo real com latência de menos de um segundo em uma única GPU, enquanto iguala ou até supera a qualidade de geração de modelos de difusão significativamente mais lentos e não causais. Site do projeto: http://self-forcing.github.io/
English
We introduce Self Forcing, a novel training paradigm for autoregressive video
diffusion models. It addresses the longstanding issue of exposure bias, where
models trained on ground-truth context must generate sequences conditioned on
their own imperfect outputs during inference. Unlike prior methods that denoise
future frames based on ground-truth context frames, Self Forcing conditions
each frame's generation on previously self-generated outputs by performing
autoregressive rollout with key-value (KV) caching during training. This
strategy enables supervision through a holistic loss at the video level that
directly evaluates the quality of the entire generated sequence, rather than
relying solely on traditional frame-wise objectives. To ensure training
efficiency, we employ a few-step diffusion model along with a stochastic
gradient truncation strategy, effectively balancing computational cost and
performance. We further introduce a rolling KV cache mechanism that enables
efficient autoregressive video extrapolation. Extensive experiments demonstrate
that our approach achieves real-time streaming video generation with sub-second
latency on a single GPU, while matching or even surpassing the generation
quality of significantly slower and non-causal diffusion models. Project
website: http://self-forcing.github.io/