Forzamiento Causal: Destilación de Difusión Autoregresiva Realizada Correctamente para la Generación de Video Interactivo en Tiempo Real de Alta Calidad
Causal Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive Video Generation
February 2, 2026
Autores: Hongzhou Zhu, Min Zhao, Guande He, Hang Su, Chongxuan Li, Jun Zhu
cs.AI
Resumen
Para lograr la generación de video interactivo en tiempo real, los métodos actuales destilan modelos bidireccionales de difusión de video preentrenados en modelos autorregresivos (AR) de pocos pasos, enfrentando una brecha arquitectónica cuando la atención completa se reemplaza por atención causal. Sin embargo, los enfoques existentes no salvan teóricamente esta brecha. Inicializan el estudiante AR mediante destilación ODE, lo que requiere inyectividad a nivel de fotograma, donde cada fotograma ruidoso debe mapearse a un único fotograma limpio bajo la PF-ODE de un profesor AR. Destilar un estudiante AR a partir de un profesor bidireccional viola esta condición, impidiendo la recuperación del mapa de flujo del profesor e induciendo en su lugar una solución de expectativa condicional, lo que degrada el rendimiento. Para abordar este problema, proponemos Causal Forcing, que utiliza un profesor AR para la inicialización ODE, salvando así la brecha arquitectónica. Los resultados empíricos muestran que nuestro método supera a todos los baselines en todas las métricas, sobrepasando al estado del arte Self Forcing en un 19.3% en Dynamic Degree, 8.7% en VisionReward y 16.7% en Instruction Following. Página del proyecto y código: https://thu-ml.github.io/CausalForcing.github.io/
English
To achieve real-time interactive video generation, current methods distill pretrained bidirectional video diffusion models into few-step autoregressive (AR) models, facing an architectural gap when full attention is replaced by causal attention. However, existing approaches do not bridge this gap theoretically. They initialize the AR student via ODE distillation, which requires frame-level injectivity, where each noisy frame must map to a unique clean frame under the PF-ODE of an AR teacher. Distilling an AR student from a bidirectional teacher violates this condition, preventing recovery of the teacher's flow map and instead inducing a conditional-expectation solution, which degrades performance. To address this issue, we propose Causal Forcing that uses an AR teacher for ODE initialization, thereby bridging the architectural gap. Empirical results show that our method outperforms all baselines across all metrics, surpassing the SOTA Self Forcing by 19.3\% in Dynamic Degree, 8.7\% in VisionReward, and 16.7\% in Instruction Following. Project page and the code: https://thu-ml.github.io/CausalForcing.github.io/{https://thu-ml.github.io/CausalForcing.github.io/}