Forçamento Causal: Destilação de Difusão Autoregressiva Feita Corretamente para Geração de Vídeo Interativo em Tempo Real de Alta Qualidade

Resumo

Para alcançar a geração de vídeo interativa em tempo real, os métodos atuais destilam modelos bidirecionais de difusão de vídeo pré-treinados em modelos autorregressivos (AR) de poucos passos, enfrentando uma lacuna arquitetônica quando a atenção completa é substituída por atenção causal. No entanto, as abordagens existentes não superam teoricamente essa lacuna. Elas inicializam o aluno AR via destilação ODE, que requer injetividade a nível de quadro, onde cada quadro ruidoso deve mapear para um quadro limpo único sob o PF-ODE de um professor AR. Destilar um aluno AR a partir de um professor bidirecional viola essa condição, impedindo a recuperação do mapa de fluxo do professor e induzindo uma solução de expectativa condicional, o que degrada o desempenho. Para resolver este problema, propomos o Causal Forcing, que utiliza um professor AR para inicialização ODE, superando assim a lacuna arquitetônica. Resultados empíricos mostram que nosso método supera todas as linhas de base em todas as métricas, ultrapassando o estado da arte Self Forcing em 19,3% no Dynamic Degree, 8,7% no VisionReward e 16,7% no Instruction Following. Página do projeto e código: https://thu-ml.github.io/CausalForcing.github.io/

English

To achieve real-time interactive video generation, current methods distill pretrained bidirectional video diffusion models into few-step autoregressive (AR) models, facing an architectural gap when full attention is replaced by causal attention. However, existing approaches do not bridge this gap theoretically. They initialize the AR student via ODE distillation, which requires frame-level injectivity, where each noisy frame must map to a unique clean frame under the PF-ODE of an AR teacher. Distilling an AR student from a bidirectional teacher violates this condition, preventing recovery of the teacher's flow map and instead inducing a conditional-expectation solution, which degrades performance. To address this issue, we propose Causal Forcing that uses an AR teacher for ODE initialization, thereby bridging the architectural gap. Empirical results show that our method outperforms all baselines across all metrics, surpassing the SOTA Self Forcing by 19.3\% in Dynamic Degree, 8.7\% in VisionReward, and 16.7\% in Instruction Following. Project page and the code: https://thu-ml.github.io/CausalForcing.github.io/{https://thu-ml.github.io/CausalForcing.github.io/}

Forçamento Causal: Destilação de Difusão Autoregressiva Feita Corretamente para Geração de Vídeo Interativo em Tempo Real de Alta Qualidade

Causal Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive Video Generation

Resumo

Support