Causal Forcing++ : distillation de diffusion autorégressive à peu d'étapes et passant à l'échelle pour la génération de vidéo interactive en temps réel

Résumé

La génération vidéo interactive en temps réel nécessite un déploiement à faible latence, en continu et contrôlable. Les méthodes existantes de distillation par diffusion autorégressive (AR) ont obtenu des résultats solides dans le régime à 4 étapes par blocs, en distillant des modèles de base bidirectionnels en étudiants AR à quelques étapes, mais elles restent limitées par une granularité de réponse grossière et une latence d'échantillonnage non négligeable. Dans cet article, nous étudions un cadre plus agressif : l'autorégression image par image avec seulement 1 à 2 étapes d'échantillonnage. Dans ce régime, nous identifions l'initialisation d'un étudiant AR à quelques étapes comme le goulot d'étranglement principal : les stratégies existantes sont soit mal alignées avec la cible, incapables de génération en quelques étapes, soit trop coûteuses à passer à l'échelle. Nous proposons Causal Forcing++, un pipeline principiel et scalable qui utilise la distillation par cohérence causale (causal CD) pour l'initialisation AR en quelques étapes. L'idée centrale est que la causal CD apprend le même flot d'écoulement conditionnel AR que la distillation par ODE causale, mais obtient une supervision à partir d'une seule étape d'ODE d'un enseignant en ligne entre des pas de temps adjacents, évitant ainsi le besoin de précalculer et de stocker des trajectoires PF-ODE complètes. Cela rend l'initialisation à la fois plus efficace et plus facile à optimiser. Le pipeline résultant, \ours, dépasse l'état de l'art Causal Forcing par blocs à 4 étapes dans le **cadre à 2 étapes image par image** de 0,1 sur VBench Total, 0,3 sur VBench Quality et 0,335 sur VisionReward, tout en réduisant la latence de la première image de 50 % et le coût d'entraînement de la phase 2 d'environ 4 fois. Nous étendons également ce pipeline à la génération de modèles du monde conditionnés par l'action dans l'esprit de Genie3. Page du projet : https://github.com/thu-ml/Causal-Forcing et https://github.com/shengshu-ai/minWM .

English

Real-time interactive video generation requires low-latency, streaming, and controllable rollout. Existing autoregressive (AR) diffusion distillation methods have achieved strong results in the chunk-wise 4-step regime by distilling bidirectional base models into few-step AR students, but they remain limited by coarse response granularity and non-negligible sampling latency. In this paper, we study a more aggressive setting: frame-wise autoregression with only 1--2 sampling steps. In this regime, we identify the initialization of a few-step AR student as the key bottleneck: existing strategies are either target-misaligned, incapable of few-step generation, or too costly to scale. We propose Causal Forcing++, a principled and scalable pipeline that uses causal consistency distillation (causal CD) for few-step AR initialization. The core idea is that causal CD learns the same AR-conditional flow map as causal ODE distillation, but obtains supervision from a single online teacher ODE step between adjacent timesteps, avoiding the need to precompute and store full PF-ODE trajectories. This makes the initialization both more efficient and easier to optimize. The resulting pipeline, \ours, surpasses the SOTA 4-step chunk-wise Causal Forcing under the \textbf{frame-wise 2-step setting} by 0.1 in VBench Total, 0.3 in VBench Quality, and 0.335 in VisionReward, while reducing first-frame latency by 50\% and Stage 2 training cost by sim4times. We further extend the pipeline to action-conditioned world model generation in the spirit of Genie3. Project Page: https://github.com/thu-ml/Causal-Forcing and https://github.com/shengshu-ai/minWM .