Self Forcing: Het Overbruggen van de Train-Test Kloof in Autoregressieve Video Diffusie
Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion
June 9, 2025
Auteurs: Xun Huang, Zhengqi Li, Guande He, Mingyuan Zhou, Eli Shechtman
cs.AI
Samenvatting
We introduceren Self Forcing, een nieuw trainingsparadigma voor autoregressieve videodiffusiemodellen. Het lost het lang bestaande probleem van exposure bias op, waarbij modellen die getraind zijn op grondwaarheid-context tijdens inferentie sequenties moeten genereren die gebaseerd zijn op hun eigen onvolmaakte uitvoer. In tegenstelling tot eerdere methoden die toekomstige frames denoizen op basis van grondwaarheid-contextframes, conditioneert Self Forcing de generatie van elk frame op eerder zelf gegenereerde uitvoer door tijdens de training autoregressieve rollout uit te voeren met key-value (KV) caching. Deze strategie maakt supervisie mogelijk via een holistisch verlies op videoniveau dat direct de kwaliteit van de volledige gegenereerde sequentie evalueert, in plaats van uitsluitend te vertrouwen op traditionele framegewijze doelstellingen. Om de trainings efficiëntie te waarborgen, gebruiken we een diffusiemodel met een beperkt aantal stappen samen met een stochastische gradient truncatiestrategie, waardoor een effectieve balans tussen rekenkosten en prestaties wordt bereikt. We introduceren verder een rollend KV cache-mechanisme dat efficiënte autoregressieve video-extrapolatie mogelijk maakt. Uitgebreide experimenten tonen aan dat onze aanpak real-time streaming videogeneratie met subseconde latentie op een enkele GPU bereikt, terwijl de generatiekwaliteit van aanzienlijk tragere en niet-causale diffusiemodellen wordt geëvenaard of zelfs overtroffen. Projectwebsite: http://self-forcing.github.io/
English
We introduce Self Forcing, a novel training paradigm for autoregressive video
diffusion models. It addresses the longstanding issue of exposure bias, where
models trained on ground-truth context must generate sequences conditioned on
their own imperfect outputs during inference. Unlike prior methods that denoise
future frames based on ground-truth context frames, Self Forcing conditions
each frame's generation on previously self-generated outputs by performing
autoregressive rollout with key-value (KV) caching during training. This
strategy enables supervision through a holistic loss at the video level that
directly evaluates the quality of the entire generated sequence, rather than
relying solely on traditional frame-wise objectives. To ensure training
efficiency, we employ a few-step diffusion model along with a stochastic
gradient truncation strategy, effectively balancing computational cost and
performance. We further introduce a rolling KV cache mechanism that enables
efficient autoregressive video extrapolation. Extensive experiments demonstrate
that our approach achieves real-time streaming video generation with sub-second
latency on a single GPU, while matching or even surpassing the generation
quality of significantly slower and non-causal diffusion models. Project
website: http://self-forcing.github.io/