One-Forcing: Hacia una Generación de Video Autorregresiva Estable de un Solo Paso

Resumen

Avances recientes han mejorado sustancialmente la generación de video interactivo en tiempo real en el régimen autorregresivo. Sin embargo, la mayoría de los métodos existentes de generación de video autorregresivo de pocos pasos, a menudo destilados a partir de un maestro correspondiente de muchos pasos, adoptan por defecto una configuración de muestreo de 4 pasos, lo que aún genera una latencia considerable durante el despliegue y sufre una degradación severa de la calidad cuando se reduce aún más el número de pasos de muestreo, particularmente en el entorno de un solo paso. Los métodos de destilación de consistencia de estilo trayectoria suelen producir videos con dinámicas débiles, mientras que los enfoques basados en DMD, como Self-Forcing, tienden a generar fotogramas borrosos. Para abordar este desafío, proponemos One-Forcing, un enfoque simple pero efectivo que aumenta el objetivo de DMD con una pérdida GAN auxiliar para la generación de video de un solo paso de alta calidad y eficiente. Los experimentos en VBench muestran que One-Forcing alcanza una puntuación total de 83.76, estableciendo un rendimiento de última generación entre los métodos de generación de video causal de un solo paso y manteniéndose competitivo con enfoques sólidos de muchos pasos. Además, demostramos que la generación autorregresiva fotograma a fotograma de un solo paso puede lograrse de manera estable con solo un tercio del costo de entrenamiento del modelo por fragmentos, un entorno que los métodos anteriores no lograron implementar con éxito.

English

Recent advances have substantially improved real-time interactive video generation in the autoregressive regime. However, most existing few-step autoregressive video generation methods, often distilled from a corresponding many-step teacher, default to a 4-step sampling configuration, which still incurs considerable latency during deployment and suffers from severe quality degradation when the number of sampling steps is further reduced, particularly in the one-step setting. Trajectory-style consistency distillation methods often produce videos with weak dynamics, while DMD-based approaches, such as Self-Forcing, tend to yield blurry frames. To address this challenge, we propose One-Forcing, a simple yet effective approach which augments the DMD objective with an auxiliary GAN loss for high-quality and efficient one-step video generation. Experiments on VBench show that One-Forcing achieves a total score of 83.76, establishing state-of-the-art performance among one-step causal video generation methods and remaining competitive with strong many-step approaches. We further demonstrate that one-step framewise autoregressive generation can be achieved stably with merely one-third of the training cost of the chunkwise model, a setting that prior methods have failed to achieve successfully.