Self Forcing: Colmare il Divario tra Addestramento e Test nella Diffusione Autoregressiva di Video

Abstract

Introduciamo Self Forcing, un nuovo paradigma di addestramento per modelli di diffusione video autoregressivi. Questo approccio affronta il problema di lunga data del bias di esposizione, in cui i modelli addestrati su contesti di verità fondamentale devono generare sequenze condizionate sui propri output imperfetti durante l'inferenza. A differenza dei metodi precedenti che denoisano i frame futuri basandosi su frame di contesto di verità fondamentale, Self Forcing condiziona la generazione di ciascun frame sugli output precedentemente auto-generati, eseguendo un rollout autoregressivo con caching di chiavi-valori (KV) durante l'addestramento. Questa strategia consente una supervisione attraverso una perdita olistica a livello video che valuta direttamente la qualità dell'intera sequenza generata, piuttosto che affidarsi esclusivamente a obiettivi tradizionali frame-by-frame. Per garantire l'efficienza dell'addestramento, utilizziamo un modello di diffusione a pochi passi insieme a una strategia di troncamento stocastico del gradiente, bilanciando efficacemente costo computazionale e prestazioni. Introduciamo inoltre un meccanismo di rolling KV cache che consente un'estrapolazione video autoregressiva efficiente. Esperimenti estensivi dimostrano che il nostro approccio raggiunge la generazione di video in streaming in tempo reale con latenza inferiore al secondo su una singola GPU, eguagliando o addirittura superando la qualità di generazione di modelli di diffusione significativamente più lenti e non causali. Sito del progetto: http://self-forcing.github.io/

English

We introduce Self Forcing, a novel training paradigm for autoregressive video diffusion models. It addresses the longstanding issue of exposure bias, where models trained on ground-truth context must generate sequences conditioned on their own imperfect outputs during inference. Unlike prior methods that denoise future frames based on ground-truth context frames, Self Forcing conditions each frame's generation on previously self-generated outputs by performing autoregressive rollout with key-value (KV) caching during training. This strategy enables supervision through a holistic loss at the video level that directly evaluates the quality of the entire generated sequence, rather than relying solely on traditional frame-wise objectives. To ensure training efficiency, we employ a few-step diffusion model along with a stochastic gradient truncation strategy, effectively balancing computational cost and performance. We further introduce a rolling KV cache mechanism that enables efficient autoregressive video extrapolation. Extensive experiments demonstrate that our approach achieves real-time streaming video generation with sub-second latency on a single GPU, while matching or even surpassing the generation quality of significantly slower and non-causal diffusion models. Project website: http://self-forcing.github.io/

Self Forcing: Colmare il Divario tra Addestramento e Test nella Diffusione Autoregressiva di Video

Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion

Abstract

Support