One-Forcing : Vers une génération de vidéos autorégressive stable en une étape

Résumé

Des avancées récentes ont considérablement amélioré la génération vidéo interactive en temps réel dans le régime autorégressif. Cependant, la plupart des méthodes existantes de génération vidéo autorégressive en quelques étapes, souvent distillées à partir d'un enseignant correspondant à plusieurs étapes, utilisent par défaut une configuration d'échantillonnage à 4 étapes, ce qui entraîne toujours une latence considérable lors du déploiement et souffre d'une grave dégradation de la qualité lorsque le nombre d'étapes d'échantillonnage est encore réduit, en particulier dans le cadre à une seule étape. Les méthodes de distillation de cohérence de type trajectoire produisent souvent des vidéos avec une dynamique faible, tandis que les approches basées sur DMD, comme Self-Forcing, ont tendance à générer des images floues. Pour relever ce défi, nous proposons One-Forcing, une approche simple mais efficace qui enrichit l'objectif DMD avec une perte GAN auxiliaire pour une génération vidéo en une seule étape de haute qualité et efficace. Les expériences sur VBench montrent que One-Forcing obtient un score total de 83,76, établissant des performances de pointe parmi les méthodes de génération vidéo causale en une seule étape et restant compétitif avec les approches fortes à plusieurs étapes. Nous démontrons en outre que la génération autorégressive trame par trame en une seule étape peut être réalisée de manière stable avec seulement un tiers du coût d'entraînement du modèle par blocs, un cadre que les méthodes précédentes n'ont pas réussi à atteindre avec succès.

English

Recent advances have substantially improved real-time interactive video generation in the autoregressive regime. However, most existing few-step autoregressive video generation methods, often distilled from a corresponding many-step teacher, default to a 4-step sampling configuration, which still incurs considerable latency during deployment and suffers from severe quality degradation when the number of sampling steps is further reduced, particularly in the one-step setting. Trajectory-style consistency distillation methods often produce videos with weak dynamics, while DMD-based approaches, such as Self-Forcing, tend to yield blurry frames. To address this challenge, we propose One-Forcing, a simple yet effective approach which augments the DMD objective with an auxiliary GAN loss for high-quality and efficient one-step video generation. Experiments on VBench show that One-Forcing achieves a total score of 83.76, establishing state-of-the-art performance among one-step causal video generation methods and remaining competitive with strong many-step approaches. We further demonstrate that one-step framewise autoregressive generation can be achieved stably with merely one-third of the training cost of the chunkwise model, a setting that prior methods have failed to achieve successfully.