ChatPaper.aiChatPaper

Auto-forzamiento: Cerrando la brecha entre entrenamiento y prueba en difusión de video autoregresivo

Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion

June 9, 2025
Autores: Xun Huang, Zhengqi Li, Guande He, Mingyuan Zhou, Eli Shechtman
cs.AI

Resumen

Presentamos Self Forcing, un paradigma de entrenamiento novedoso para modelos de difusión de video autorregresivos. Este enfoque aborda el problema persistente del sesgo de exposición, donde los modelos entrenados con contexto de verdad fundamental deben generar secuencias condicionadas a sus propias salidas imperfectas durante la inferencia. A diferencia de métodos anteriores que eliminan ruido en fotogramas futuros basándose en fotogramas de contexto de verdad fundamental, Self Forcing condiciona la generación de cada fotograma a salidas previamente autogeneradas mediante la ejecución autorregresiva con almacenamiento en caché de clave-valor (KV) durante el entrenamiento. Esta estrategia permite la supervisión a través de una pérdida holística a nivel de video que evalúa directamente la calidad de toda la secuencia generada, en lugar de depender únicamente de objetivos tradicionales por fotograma. Para garantizar la eficiencia del entrenamiento, empleamos un modelo de difusión de pocos pasos junto con una estrategia de truncamiento de gradiente estocástico, equilibrando efectivamente el costo computacional y el rendimiento. Además, introducimos un mecanismo de caché KV dinámico que permite la extrapolación de video autorregresiva eficiente. Experimentos exhaustivos demuestran que nuestro enfoque logra la generación de video en tiempo real con latencia de menos de un segundo en una sola GPU, igualando o incluso superando la calidad de generación de modelos de difusión significativamente más lentos y no causales. Sitio web del proyecto: http://self-forcing.github.io/
English
We introduce Self Forcing, a novel training paradigm for autoregressive video diffusion models. It addresses the longstanding issue of exposure bias, where models trained on ground-truth context must generate sequences conditioned on their own imperfect outputs during inference. Unlike prior methods that denoise future frames based on ground-truth context frames, Self Forcing conditions each frame's generation on previously self-generated outputs by performing autoregressive rollout with key-value (KV) caching during training. This strategy enables supervision through a holistic loss at the video level that directly evaluates the quality of the entire generated sequence, rather than relying solely on traditional frame-wise objectives. To ensure training efficiency, we employ a few-step diffusion model along with a stochastic gradient truncation strategy, effectively balancing computational cost and performance. We further introduce a rolling KV cache mechanism that enables efficient autoregressive video extrapolation. Extensive experiments demonstrate that our approach achieves real-time streaming video generation with sub-second latency on a single GPU, while matching or even surpassing the generation quality of significantly slower and non-causal diffusion models. Project website: http://self-forcing.github.io/
PDF162June 11, 2025