Self Forcing: Überbrückung der Trainings-Test-Lücke in autoregressiver Video-Diffusion
Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion
June 9, 2025
Autoren: Xun Huang, Zhengqi Li, Guande He, Mingyuan Zhou, Eli Shechtman
cs.AI
Zusammenfassung
Wir stellen Self Forcing vor, ein neuartiges Trainingsparadigma für autoregressive Video-Diffusionsmodelle. Es adressiert das lang bestehende Problem des Exposure Bias, bei dem Modelle, die auf Ground-Truth-Kontext trainiert werden, während der Inferenz Sequenzen basierend auf ihren eigenen unvollkommenen Ausgaben generieren müssen. Im Gegensatz zu früheren Methoden, die zukünftige Frames basierend auf Ground-Truth-Kontextframes entrauschen, konditioniert Self Forcing die Generierung jedes Frames auf zuvor selbst generierte Ausgaben, indem während des Trainings ein autoregressiver Rollout mit Key-Value (KV)-Caching durchgeführt wird. Diese Strategie ermöglicht eine Überwachung durch einen ganzheitlichen Verlust auf Videoebene, der die Qualität der gesamten generierten Sequenz direkt bewertet, anstatt sich ausschließlich auf traditionelle Frame-weite Ziele zu verlassen. Um die Trainingseffizienz zu gewährleisten, verwenden wir ein Diffusionsmodell mit wenigen Schritten zusammen mit einer stochastischen Gradientenabschneidestrategie, die Rechenkosten und Leistung effektiv ausbalanciert. Wir führen weiterhin einen rollenden KV-Cache-Mechanismus ein, der eine effiziente autoregressive Videoextrapolation ermöglicht. Umfangreiche Experimente zeigen, dass unser Ansatz die Echtzeit-Generierung von Streaming-Videos mit einer Latenz von weniger als einer Sekunde auf einer einzelnen GPU erreicht, während er die Generierungsqualität deutlich langsamerer und nicht-kausaler Diffusionsmodelle erreicht oder sogar übertrifft. Projektwebsite: http://self-forcing.github.io/
English
We introduce Self Forcing, a novel training paradigm for autoregressive video
diffusion models. It addresses the longstanding issue of exposure bias, where
models trained on ground-truth context must generate sequences conditioned on
their own imperfect outputs during inference. Unlike prior methods that denoise
future frames based on ground-truth context frames, Self Forcing conditions
each frame's generation on previously self-generated outputs by performing
autoregressive rollout with key-value (KV) caching during training. This
strategy enables supervision through a holistic loss at the video level that
directly evaluates the quality of the entire generated sequence, rather than
relying solely on traditional frame-wise objectives. To ensure training
efficiency, we employ a few-step diffusion model along with a stochastic
gradient truncation strategy, effectively balancing computational cost and
performance. We further introduce a rolling KV cache mechanism that enables
efficient autoregressive video extrapolation. Extensive experiments demonstrate
that our approach achieves real-time streaming video generation with sub-second
latency on a single GPU, while matching or even surpassing the generation
quality of significantly slower and non-causal diffusion models. Project
website: http://self-forcing.github.io/