Causal Forcing++: Destilación de Difusión Autoregresiva Escalable de Pocos Pasos para Generación de Video Interactivo en Tiempo Real

Resumen

La generación de video interactivo en tiempo real requiere despliegue con baja latencia, transmisión continua y controlabilidad. Los métodos existentes de destilación por difusión autorregresiva (AR) han logrado resultados sólidos en el régimen de 4 pasos por fragmento, al destilar modelos base bidireccionales en estudiantes AR de pocos pasos, pero siguen limitados por una granularidad de respuesta gruesa y una latencia de muestreo no despreciable. En este artículo, estudiamos un entorno más agresivo: autorregresión fotograma a fotograma con solo 1 o 2 pasos de muestreo. En este régimen, identificamos la inicialización de un estudiante AR de pocos pasos como el cuello de botella clave: las estrategias existentes o no están alineadas con el objetivo, son incapaces de generar en pocos pasos, o resultan demasiado costosas de escalar. Proponemos Causal Forcing++, un pipeline escalable y fundamentado que utiliza destilación de consistencia causal (causal CD) para la inicialización AR de pocos pasos. La idea central es que la causal CD aprende el mismo mapa de flujo condicionado AR que la destilación ODE causal, pero obtiene supervisión de un único paso ODE del profesor en línea entre instantes de tiempo adyacentes, evitando la necesidad de precalcular y almacenar trayectorias completas de ODE PF. Esto hace que la inicialización sea más eficiente y fácil de optimizar. El pipeline resultante, \ours, supera al estado del arte Causal Forcing de 4 pasos por fragmento en el **entorno de 2 pasos fotograma a fotograma** en 0.1 en VBench Total, 0.3 en VBench Calidad y 0.335 en VisionReward, al tiempo que reduce la latencia del primer fotograma en un 50% y el coste de entrenamiento de la Etapa 2 en aproximadamente 4 veces. Además, extendemos el pipeline a la generación de modelos del mundo condicionados por acción, siguiendo el espíritu de Genie3. Página del proyecto: https://github.com/thu-ml/Causal-Forcing y https://github.com/shengshu-ai/minWM.

English

Real-time interactive video generation requires low-latency, streaming, and controllable rollout. Existing autoregressive (AR) diffusion distillation methods have achieved strong results in the chunk-wise 4-step regime by distilling bidirectional base models into few-step AR students, but they remain limited by coarse response granularity and non-negligible sampling latency. In this paper, we study a more aggressive setting: frame-wise autoregression with only 1--2 sampling steps. In this regime, we identify the initialization of a few-step AR student as the key bottleneck: existing strategies are either target-misaligned, incapable of few-step generation, or too costly to scale. We propose Causal Forcing++, a principled and scalable pipeline that uses causal consistency distillation (causal CD) for few-step AR initialization. The core idea is that causal CD learns the same AR-conditional flow map as causal ODE distillation, but obtains supervision from a single online teacher ODE step between adjacent timesteps, avoiding the need to precompute and store full PF-ODE trajectories. This makes the initialization both more efficient and easier to optimize. The resulting pipeline, \ours, surpasses the SOTA 4-step chunk-wise Causal Forcing under the \textbf{frame-wise 2-step setting} by 0.1 in VBench Total, 0.3 in VBench Quality, and 0.335 in VisionReward, while reducing first-frame latency by 50\% and Stage 2 training cost by sim4times. We further extend the pipeline to action-conditioned world model generation in the spirit of Genie3. Project Page: https://github.com/thu-ml/Causal-Forcing and https://github.com/shengshu-ai/minWM .