ChatPaper.aiChatPaper

Forçage Causal : Distillation de Diffusion Autoregressive Bien Réalisée pour une Génération Vidéo Interactive en Temps Réel de Haute Qualité

Causal Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive Video Generation

February 2, 2026
papers.authors: Hongzhou Zhu, Min Zhao, Guande He, Hang Su, Chongxuan Li, Jun Zhu
cs.AI

papers.abstract

Pour réaliser une génération vidéo interactive en temps réel, les méthodes actuelles distillent des modèles de diffusion vidéo bidirectionnels pré-entraînés en modèles autorégressifs (AR) à faible nombre d'étapes, ce qui crée un écart architectural lorsque l'attention complète est remplacée par une attention causale. Cependant, les approches existantes ne comblent pas cet écart théoriquement. Elles initialisent l'étudiant AR via une distillation EDO, ce qui nécessite une injectivité au niveau des images, où chaque image bruitée doit correspondre à une image propre unique sous la PF-ODE d'un enseignant AR. Distiller un étudiant AR à partir d'un enseignant bidirectionnel viole cette condition, empêchant la récupération de la carte de flux de l'enseignant et induisant plutôt une solution d'espérance conditionnelle, ce qui dégrade les performances. Pour résoudre ce problème, nous proposons Causal Forcing, qui utilise un enseignant AR pour l'initialisation EDO, comblant ainsi l'écart architectural. Les résultats empiriques montrent que notre méthode surpasse toutes les approches de référence sur toutes les métriques, dépassant l'état de l'art Self Forcing de 19,3 % en Dynamic Degree, 8,7 % en VisionReward et 16,7 % en Instruction Following. Page du projet et code : https://thu-ml.github.io/CausalForcing.github.io/
English
To achieve real-time interactive video generation, current methods distill pretrained bidirectional video diffusion models into few-step autoregressive (AR) models, facing an architectural gap when full attention is replaced by causal attention. However, existing approaches do not bridge this gap theoretically. They initialize the AR student via ODE distillation, which requires frame-level injectivity, where each noisy frame must map to a unique clean frame under the PF-ODE of an AR teacher. Distilling an AR student from a bidirectional teacher violates this condition, preventing recovery of the teacher's flow map and instead inducing a conditional-expectation solution, which degrades performance. To address this issue, we propose Causal Forcing that uses an AR teacher for ODE initialization, thereby bridging the architectural gap. Empirical results show that our method outperforms all baselines across all metrics, surpassing the SOTA Self Forcing by 19.3\% in Dynamic Degree, 8.7\% in VisionReward, and 16.7\% in Instruction Following. Project page and the code: https://thu-ml.github.io/CausalForcing.github.io/{https://thu-ml.github.io/CausalForcing.github.io/}
PDF232February 7, 2026