ChatPaper.aiChatPaper

Auto-Forçage : Combler l'écart entre entraînement et test dans la diffusion vidéo autorégressive

Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion

June 9, 2025
Auteurs: Xun Huang, Zhengqi Li, Guande He, Mingyuan Zhou, Eli Shechtman
cs.AI

Résumé

Nous présentons Self Forcing, un nouveau paradigme d'entraînement pour les modèles de diffusion vidéo autorégressifs. Il résout le problème persistant du biais d'exposition, où les modèles entraînés sur un contexte de vérité terrain doivent générer des séquences conditionnées par leurs propres sorties imparfaites lors de l'inférence. Contrairement aux méthodes antérieures qui débruitaient les images futures en se basant sur des images de contexte de vérité terrain, Self Forcing conditionne la génération de chaque image sur les sorties précédemment auto-générées en effectuant un déploiement autorégressif avec mise en cache clé-valeur (KV) pendant l'entraînement. Cette stratégie permet une supervision via une perte holistique au niveau vidéo qui évalue directement la qualité de la séquence entière générée, plutôt que de s'appuyer uniquement sur les objectifs traditionnels image par image. Pour garantir l'efficacité de l'entraînement, nous utilisons un modèle de diffusion à quelques étapes ainsi qu'une stratégie de troncature stochastique du gradient, équilibrant efficacement le coût computationnel et les performances. Nous introduisons en outre un mécanisme de cache KV roulant qui permet une extrapolation vidéo autorégressive efficace. Des expériences approfondies démontrent que notre approche permet une génération de flux vidéo en temps réel avec une latence inférieure à la seconde sur un seul GPU, tout en égalant ou même surpassant la qualité de génération de modèles de diffusion significativement plus lents et non causaux. Site du projet : http://self-forcing.github.io/
English
We introduce Self Forcing, a novel training paradigm for autoregressive video diffusion models. It addresses the longstanding issue of exposure bias, where models trained on ground-truth context must generate sequences conditioned on their own imperfect outputs during inference. Unlike prior methods that denoise future frames based on ground-truth context frames, Self Forcing conditions each frame's generation on previously self-generated outputs by performing autoregressive rollout with key-value (KV) caching during training. This strategy enables supervision through a holistic loss at the video level that directly evaluates the quality of the entire generated sequence, rather than relying solely on traditional frame-wise objectives. To ensure training efficiency, we employ a few-step diffusion model along with a stochastic gradient truncation strategy, effectively balancing computational cost and performance. We further introduce a rolling KV cache mechanism that enables efficient autoregressive video extrapolation. Extensive experiments demonstrate that our approach achieves real-time streaming video generation with sub-second latency on a single GPU, while matching or even surpassing the generation quality of significantly slower and non-causal diffusion models. Project website: http://self-forcing.github.io/
PDF162June 11, 2025