Causal-rCM: Единый открытый рецепт принуждения учителем и самопринуждения для авторегрессионной диффузионной дистилляции в генерации потокового видео и интерактивных мировых моделях

Аннотация

Авторегрессионная видеодиффузия с каузальными диффузионными трансформерами стала важной парадигмой для генерации потокового видео в реальном времени и интерактивных мировых моделей, обусловленных действиями. В данной работе мы расширяем rCM, передовую основу для дистилляции диффузии, на авторегрессионную видеодиффузию. Основная философия rCM заключается в дополнительности прямых и обратных расхождений, представленных соответственно моделями согласованности (CM) и дистилляцией согласования распределений (DMD) в дистилляции диффузии. Эта философия естественным образом переносится на авторегрессионную постановку, где teacher-forcing (TF) обеспечивает автономную каузальную парадигму обучения с прямым расхождением, в то время как self-forcing (SF) соответствует уточнению с обратным расхождением, основанному на текущей политике. Наши вклады заключаются в следующем: (1) посредством обширных экспериментов мы показываем, что teacher-forcing CM в настоящее время является наилучшим дополнением к self-forcing DMD в качестве стратегии инициализации; (2) мы представляем первую реализацию teacher-forcing-based непрерывных по времени CM (например, sCM/MeanFlow) для авторегрессионной видеодиффузии, ставшую возможной благодаря нашему пользовательскому маскированному ядру FlashAttention-2 JVP, обеспечивающему в 10 раз более быструю сходимость по сравнению с дискретными по времени CM (dCM); (3) мы представляем Causal-rCM — ведущий, унифицированный и масштабируемый открытый рецепт алгоритма и инфраструктуры для дистилляции диффузии и каузального обучения; (4) мы достигаем самых современных результатов в генерации потокового видео как в покадровом, так и в поблочном режимах, используя для обучения только синтетические данные. Примечательно, что наша дистиллированная 2-шаговая каузальная модель Wan2.1-1.3B достигает оценки VBench-T2V 84,63 всего за 1 или 2 шага сэмплирования. Мы также применяем Causal-rCM к Cosmos 3 — передовой омнимодальной мировой фундаментальной модели для физического ИИ с возможностью генерации, обусловленной действиями, что позволяет создать интерактивную мировую модель.

English

Autoregressive video diffusion with causal diffusion transformers has emerged as a major paradigm for real-time streaming video generation and action-conditioned interactive world models. In this work, we extend rCM, an advanced diffusion distillation framework, to autoregressive video diffusion. The core philosophy of rCM lies in the complementarity between forward and reverse divergences, represented by consistency models (CMs) and distribution matching distillation (DMD), respectively, in diffusion distillation. This philosophy naturally carries over to the autoregressive setting, where teacher-forcing (TF) provides an offline, forward-divergence causal training paradigm, while self-forcing (SF) corresponds to an on-policy, reverse-divergence refinement. Our contributions are: (1) through extensive experiments, we show that teacher-forcing CM is currently the best complement to self-forcing DMD as an initialization strategy (2) we present the first implementation of teacher-forcing-based continuous-time CMs (e.g., sCM/MeanFlow) for autoregressive video diffusion, enabled by our custom-mask FlashAttention-2 JVP kernel, achieving 10times faster convergence compared to discrete-time CMs (dCMs) (3) we introduce Causal-rCM, a leading, unified, and scalable algorithm-infrastructure open recipe for diffusion distillation and causal training (4) we achieve state-of-the-art streaming video generation performance in both frame-wise and chunk-wise settings, using only synthetic data for training. Notably, our distilled 2-step causal Wan2.1-1.3B model achieves a VBench-T2V score of 84.63 with only 1 or 2 sampling steps. We further apply Causal-rCM to Cosmos 3, an advanced omnimodal world foundation model for physical AI with action-conditioned generation capability, enabling an interactive world model.