Causal Forcing++: Масштабируемая малошаговая авторегрессионная диффузионная дистилляция для генерации интерактивного видео в реальном времени

Аннотация

Генерация интерактивного видео в реальном времени требует низкой задержки, потоковой передачи и контролируемого развертывания. Существующие методы авторегрессионной (AR) диффузионной дистилляции достигли высоких результатов в режиме фрагментарной обработки с 4 шагами, дистиллируя двунаправленные базовые модели в малошаговые AR-студенты, однако они по-прежнему ограничены грубой гранулярностью отклика и существенной задержкой выборки. В данной работе мы исследуем более агрессивную постановку: покадровую авторегрессию с всего 1–2 шагами выборки. В этом режиме мы идентифицируем инициализацию малошагового AR-студента как ключевое узкое место: существующие стратегии либо смещены относительно цели, либо неспособны к малошаговой генерации, либо слишком затратны для масштабирования. Мы предлагаем Causal Forcing++ — принципиальный и масштабируемый конвейер, использующий каузальную дистилляцию согласованности (каузальный CD) для малошаговой AR-инициализации. Основная идея заключается в том, что каузальный CD обучает то же AR-условное потоковое отображение, что и каузальная ODE-дистилляция, но получает супервизию от одного онлайн-шага ODE-учителя между соседними временными шагами, избегая необходимости предварительного вычисления и хранения полных траекторий PF-ODE. Это делает инициализацию как более эффективной, так и более простой в оптимизации. Полученный конвейер, \ours, превосходит SOTA 4-шаговый фрагментарный Causal Forcing в **покадровом 2-шаговом режиме** на 0,1 по VBench Total, на 0,3 по VBench Quality и на 0,335 по VisionReward, одновременно сокращая задержку первого кадра на 50% и стоимость обучения на этапе 2 примерно в 4 раза. Кроме того, мы расширяем конвейер на генерацию модели мира, обусловленную действиями, в духе Genie3. Страница проекта: https://github.com/thu-ml/Causal-Forcing и https://github.com/shengshu-ai/minWM .

English

Real-time interactive video generation requires low-latency, streaming, and controllable rollout. Existing autoregressive (AR) diffusion distillation methods have achieved strong results in the chunk-wise 4-step regime by distilling bidirectional base models into few-step AR students, but they remain limited by coarse response granularity and non-negligible sampling latency. In this paper, we study a more aggressive setting: frame-wise autoregression with only 1--2 sampling steps. In this regime, we identify the initialization of a few-step AR student as the key bottleneck: existing strategies are either target-misaligned, incapable of few-step generation, or too costly to scale. We propose Causal Forcing++, a principled and scalable pipeline that uses causal consistency distillation (causal CD) for few-step AR initialization. The core idea is that causal CD learns the same AR-conditional flow map as causal ODE distillation, but obtains supervision from a single online teacher ODE step between adjacent timesteps, avoiding the need to precompute and store full PF-ODE trajectories. This makes the initialization both more efficient and easier to optimize. The resulting pipeline, \ours, surpasses the SOTA 4-step chunk-wise Causal Forcing under the \textbf{frame-wise 2-step setting} by 0.1 in VBench Total, 0.3 in VBench Quality, and 0.335 in VisionReward, while reducing first-frame latency by 50\% and Stage 2 training cost by sim4times. We further extend the pipeline to action-conditioned world model generation in the spirit of Genie3. Project Page: https://github.com/thu-ml/Causal-Forcing and https://github.com/shengshu-ai/minWM .