ChatPaper.aiChatPaper

Self Forcing: Überbrückung der Trainings-Test-Lücke in autoregressiver Video-Diffusion

Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion

June 9, 2025
Autoren: Xun Huang, Zhengqi Li, Guande He, Mingyuan Zhou, Eli Shechtman
cs.AI

Zusammenfassung

Wir stellen Self Forcing vor, ein neuartiges Trainingsparadigma für autoregressive Video-Diffusionsmodelle. Es adressiert das lang bestehende Problem des Exposure Bias, bei dem Modelle, die auf Ground-Truth-Kontext trainiert werden, während der Inferenz Sequenzen basierend auf ihren eigenen unvollkommenen Ausgaben generieren müssen. Im Gegensatz zu früheren Methoden, die zukünftige Frames basierend auf Ground-Truth-Kontextframes entrauschen, konditioniert Self Forcing die Generierung jedes Frames auf zuvor selbst generierte Ausgaben, indem während des Trainings ein autoregressiver Rollout mit Key-Value (KV)-Caching durchgeführt wird. Diese Strategie ermöglicht eine Überwachung durch einen ganzheitlichen Verlust auf Videoebene, der die Qualität der gesamten generierten Sequenz direkt bewertet, anstatt sich ausschließlich auf traditionelle Frame-weite Ziele zu verlassen. Um die Trainingseffizienz zu gewährleisten, verwenden wir ein Diffusionsmodell mit wenigen Schritten zusammen mit einer stochastischen Gradientenabschneidestrategie, die Rechenkosten und Leistung effektiv ausbalanciert. Wir führen weiterhin einen rollenden KV-Cache-Mechanismus ein, der eine effiziente autoregressive Videoextrapolation ermöglicht. Umfangreiche Experimente zeigen, dass unser Ansatz die Echtzeit-Generierung von Streaming-Videos mit einer Latenz von weniger als einer Sekunde auf einer einzelnen GPU erreicht, während er die Generierungsqualität deutlich langsamerer und nicht-kausaler Diffusionsmodelle erreicht oder sogar übertrifft. Projektwebsite: http://self-forcing.github.io/
English
We introduce Self Forcing, a novel training paradigm for autoregressive video diffusion models. It addresses the longstanding issue of exposure bias, where models trained on ground-truth context must generate sequences conditioned on their own imperfect outputs during inference. Unlike prior methods that denoise future frames based on ground-truth context frames, Self Forcing conditions each frame's generation on previously self-generated outputs by performing autoregressive rollout with key-value (KV) caching during training. This strategy enables supervision through a holistic loss at the video level that directly evaluates the quality of the entire generated sequence, rather than relying solely on traditional frame-wise objectives. To ensure training efficiency, we employ a few-step diffusion model along with a stochastic gradient truncation strategy, effectively balancing computational cost and performance. We further introduce a rolling KV cache mechanism that enables efficient autoregressive video extrapolation. Extensive experiments demonstrate that our approach achieves real-time streaming video generation with sub-second latency on a single GPU, while matching or even surpassing the generation quality of significantly slower and non-causal diffusion models. Project website: http://self-forcing.github.io/
PDF162June 11, 2025