Causal-rCM: Een verenigd open recept voor teacher-forcing en self-forcing voor autoregressieve diffusiedestillatie in streaming videogeneratie en interactieve wereldmodellen

Samenvatting

Autoregressieve videodiffusie met causale diffusietransformers is naar voren gekomen als een belangrijk paradigma voor real-time streaming videogeneratie en actie-geconditioneerde interactieve wereldmodellen. In dit werk breiden we rCM, een geavanceerd raamwerk voor diffusiedestillatie, uit naar autoregressieve videodiffusie. De kernfilosofie van rCM ligt in de complementariteit tussen voorwaartse en achterwaartse divergentie, respectievelijk vertegenwoordigd door consistentiemodellen (CMs) en distributiematchingdestillatie (DMD), in diffusiedestillatie. Deze filosofie gaat van nature over naar de autoregressieve setting, waar teacher-forcing (TF) een offline, voorwaartse divergentie causaal trainingsparadigma biedt, terwijl self-forcing (SF) overeenkomt met een on-policy, achterwaartse divergentieverfijning. Onze bijdragen zijn: (1) door uitgebreide experimenten tonen we aan dat teacher-forcing CM momenteel de beste aanvulling is op self-forcing DMD als initialisatiestrategie; (2) we presenteren de eerste implementatie van op teacher-forcing gebaseerde continue-tijd CMs (bijv. sCM/MeanFlow) voor autoregressieve videodiffusie, mogelijk gemaakt door onze op maat gemaakte FlashAttention-2 JVP kernel, die een 10 keer snellere convergentie bereikt in vergelijking met discrete-tijd CMs (dCMs); (3) we introduceren Causal-rCM, een toonaangevend, uniform en schaalbaar algoritme-infrastructuur open recept voor diffusiedestillatie en causale training; (4) we bereiken state-of-the-art prestaties in streaming videogeneratie, zowel in frame-gewijze als chunk-gewijze instellingen, waarbij we alleen synthetische data gebruiken voor training. Opmerkelijk is dat ons gedestilleerde 2-staps causale Wan2.1-1.3B model een VBench-T2V score van 84,63 behaalt met slechts 1 of 2 samplingstappen. We passen Causal-rCM verder toe op Cosmos 3, een geavanceerd omnimodaal wereldfundamentmodel voor fysieke AI met actie-geconditioneerde generatiecapaciteit, waarmee een interactief wereldmodel mogelijk wordt.

English

Autoregressive video diffusion with causal diffusion transformers has emerged as a major paradigm for real-time streaming video generation and action-conditioned interactive world models. In this work, we extend rCM, an advanced diffusion distillation framework, to autoregressive video diffusion. The core philosophy of rCM lies in the complementarity between forward and reverse divergences, represented by consistency models (CMs) and distribution matching distillation (DMD), respectively, in diffusion distillation. This philosophy naturally carries over to the autoregressive setting, where teacher-forcing (TF) provides an offline, forward-divergence causal training paradigm, while self-forcing (SF) corresponds to an on-policy, reverse-divergence refinement. Our contributions are: (1) through extensive experiments, we show that teacher-forcing CM is currently the best complement to self-forcing DMD as an initialization strategy (2) we present the first implementation of teacher-forcing-based continuous-time CMs (e.g., sCM/MeanFlow) for autoregressive video diffusion, enabled by our custom-mask FlashAttention-2 JVP kernel, achieving 10times faster convergence compared to discrete-time CMs (dCMs) (3) we introduce Causal-rCM, a leading, unified, and scalable algorithm-infrastructure open recipe for diffusion distillation and causal training (4) we achieve state-of-the-art streaming video generation performance in both frame-wise and chunk-wise settings, using only synthetic data for training. Notably, our distilled 2-step causal Wan2.1-1.3B model achieves a VBench-T2V score of 84.63 with only 1 or 2 sampling steps. We further apply Causal-rCM to Cosmos 3, an advanced omnimodal world foundation model for physical AI with action-conditioned generation capability, enabling an interactive world model.