ChatPaper.aiChatPaper

Каузальное форсирование: авторегрессионная диффузионная дистилляция, правильно реализованная для генерации высококачественного интерактивного видео в реальном времени

Causal Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive Video Generation

February 2, 2026
Авторы: Hongzhou Zhu, Min Zhao, Guande He, Hang Su, Chongxuan Li, Jun Zhu
cs.AI

Аннотация

Для достижения интерактивной генерации видео в реальном времени современные методы дистиллируют предобученные двунаправленные модели видео-диффузии в авторегрессионные (AR) модели с малым числом шагов, сталкиваясь с архитектурным разрывом при замене полного внимания на причинное внимание. Однако существующие подходы не преодолевают этот разрыв теоретически. Они инициализируют AR-ученика через ODE-дистилляцию, что требует инъективности на уровне кадров: каждый зашумленный кадр должен однозначно отображаться на чистый кадр в соответствии с PF-ODE AR-учителя. Дистилляция AR-ученика от двунаправленного учителя нарушает это условие, препятствуя восстановлению потока учителя и приводя к условно-математическому ожиданию, что снижает качество. Для решения этой проблемы мы предлагаем Causal Forcing — метод, использующий AR-учителя для ODE-инициализации, тем самым устраняя архитектурный разрыв. Эксперименты показывают, что наш метод превосходит все базовые подходы по всем метрикам, опережая состояние искусства (Self Forcing) на 19.3% по Dynamic Degree, 8.7% по VisionReward и 16.7% по Instruction Following. Страница проекта и код: https://thu-ml.github.io/CausalForcing.github.io/.
English
To achieve real-time interactive video generation, current methods distill pretrained bidirectional video diffusion models into few-step autoregressive (AR) models, facing an architectural gap when full attention is replaced by causal attention. However, existing approaches do not bridge this gap theoretically. They initialize the AR student via ODE distillation, which requires frame-level injectivity, where each noisy frame must map to a unique clean frame under the PF-ODE of an AR teacher. Distilling an AR student from a bidirectional teacher violates this condition, preventing recovery of the teacher's flow map and instead inducing a conditional-expectation solution, which degrades performance. To address this issue, we propose Causal Forcing that uses an AR teacher for ODE initialization, thereby bridging the architectural gap. Empirical results show that our method outperforms all baselines across all metrics, surpassing the SOTA Self Forcing by 19.3\% in Dynamic Degree, 8.7\% in VisionReward, and 16.7\% in Instruction Following. Project page and the code: https://thu-ml.github.io/CausalForcing.github.io/{https://thu-ml.github.io/CausalForcing.github.io/}
PDF232February 7, 2026