Self Forcing: Colmare il Divario tra Addestramento e Test nella Diffusione Autoregressiva di Video
Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion
June 9, 2025
Autori: Xun Huang, Zhengqi Li, Guande He, Mingyuan Zhou, Eli Shechtman
cs.AI
Abstract
Introduciamo Self Forcing, un nuovo paradigma di addestramento per modelli di diffusione video autoregressivi. Questo approccio affronta il problema di lunga data del bias di esposizione, in cui i modelli addestrati su contesti di verità fondamentale devono generare sequenze condizionate sui propri output imperfetti durante l'inferenza. A differenza dei metodi precedenti che denoisano i frame futuri basandosi su frame di contesto di verità fondamentale, Self Forcing condiziona la generazione di ciascun frame sugli output precedentemente auto-generati, eseguendo un rollout autoregressivo con caching di chiavi-valori (KV) durante l'addestramento. Questa strategia consente una supervisione attraverso una perdita olistica a livello video che valuta direttamente la qualità dell'intera sequenza generata, piuttosto che affidarsi esclusivamente a obiettivi tradizionali frame-by-frame. Per garantire l'efficienza dell'addestramento, utilizziamo un modello di diffusione a pochi passi insieme a una strategia di troncamento stocastico del gradiente, bilanciando efficacemente costo computazionale e prestazioni. Introduciamo inoltre un meccanismo di rolling KV cache che consente un'estrapolazione video autoregressiva efficiente. Esperimenti estensivi dimostrano che il nostro approccio raggiunge la generazione di video in streaming in tempo reale con latenza inferiore al secondo su una singola GPU, eguagliando o addirittura superando la qualità di generazione di modelli di diffusione significativamente più lenti e non causali. Sito del progetto: http://self-forcing.github.io/
English
We introduce Self Forcing, a novel training paradigm for autoregressive video
diffusion models. It addresses the longstanding issue of exposure bias, where
models trained on ground-truth context must generate sequences conditioned on
their own imperfect outputs during inference. Unlike prior methods that denoise
future frames based on ground-truth context frames, Self Forcing conditions
each frame's generation on previously self-generated outputs by performing
autoregressive rollout with key-value (KV) caching during training. This
strategy enables supervision through a holistic loss at the video level that
directly evaluates the quality of the entire generated sequence, rather than
relying solely on traditional frame-wise objectives. To ensure training
efficiency, we employ a few-step diffusion model along with a stochastic
gradient truncation strategy, effectively balancing computational cost and
performance. We further introduce a rolling KV cache mechanism that enables
efficient autoregressive video extrapolation. Extensive experiments demonstrate
that our approach achieves real-time streaming video generation with sub-second
latency on a single GPU, while matching or even surpassing the generation
quality of significantly slower and non-causal diffusion models. Project
website: http://self-forcing.github.io/