ChatPaper.aiChatPaper

Kausale Steuerung: Autoregressive Diffusionsdestillation richtig umgesetzt für hochwertige Echtzeit-Videogenerierung mit Interaktionsfähigkeit

Causal Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive Video Generation

February 2, 2026
papers.authors: Hongzhou Zhu, Min Zhao, Guande He, Hang Su, Chongxuan Li, Jun Zhu
cs.AI

papers.abstract

Um echtzeitfähige interaktive Videogenerierung zu erreichen, distillieren aktuelle Methoden vortrainierte bidirektionale Videodiffusionsmodelle zu autoregressiven (AR) Modellen mit wenigen Schritten, wodurch eine architektonische Lücke entsteht, wenn volle Aufmerksamkeit durch kausale Aufmerksamkeit ersetzt wird. Bisherige Ansätze schließen diese Lücke jedoch nicht theoretisch. Sie initialisieren den AR-Studenten durch ODE-Distillation, was Frame-Injektivität erfordert – d.h., jedes verrauschte Frame muss unter der PF-ODE eines AR-Lehrers auf ein eindeutiges cleanes Frame abgebildet werden. Die Distillation eines AR-Studenten aus einem bidirektionalen Lehrer verletzt diese Bedingung, verhindert die Wiederherstellung der Flussabbildung des Lehrers und führt stattdessen zu einer Lösung als konditionale Erwartung, was die Leistung beeinträchtigt. Um dieses Problem zu lösen, schlagen wir Causal Forcing vor, das einen AR-Lehrer zur ODE-Initialisierung verwendet und so die architektonische Lücke schließt. Empirische Ergebnisse zeigen, dass unsere Methode alle Baseline-Methoden in allen Metriken übertrifft und den State-of-the-Art-Ansatz Self Forcing um 19,3 % im Dynamic Degree, 8,7 % im VisionReward und 16,7 % im Instruction-Following überbietet. Projektseite und Code: https://thu-ml.github.io/CausalForcing.github.io/
English
To achieve real-time interactive video generation, current methods distill pretrained bidirectional video diffusion models into few-step autoregressive (AR) models, facing an architectural gap when full attention is replaced by causal attention. However, existing approaches do not bridge this gap theoretically. They initialize the AR student via ODE distillation, which requires frame-level injectivity, where each noisy frame must map to a unique clean frame under the PF-ODE of an AR teacher. Distilling an AR student from a bidirectional teacher violates this condition, preventing recovery of the teacher's flow map and instead inducing a conditional-expectation solution, which degrades performance. To address this issue, we propose Causal Forcing that uses an AR teacher for ODE initialization, thereby bridging the architectural gap. Empirical results show that our method outperforms all baselines across all metrics, surpassing the SOTA Self Forcing by 19.3\% in Dynamic Degree, 8.7\% in VisionReward, and 16.7\% in Instruction Following. Project page and the code: https://thu-ml.github.io/CausalForcing.github.io/{https://thu-ml.github.io/CausalForcing.github.io/}
PDF232February 7, 2026