Forzado Siguiente: Modelado Causal del Mundo con Predicción de Múltiples Bloques

Resumen

La generación de video autorregresivo ha surgido como un paradigma poderoso para los Modelos de Acción Mundial (WAMs). Sin embargo, los enfoques existentes sufren de una convergencia lenta durante el entrenamiento y una precisión limitada en la convergencia, particularmente en altas tasas de cuadros, ya que la supervisión del entrenamiento se limita al fragmento actual sin señales explícitas sobre la dinámica futura; también sufren de inferencia lenta debido al denoising iterativo del video. En este artículo, presentamos Next Forcing, un marco de predicción multifragmento (MCP) para el modelado causal del mundo que permite un entrenamiento más rápido, mayor precisión e inferencia acelerada. Inspirado en la predicción multitoken en modelos de lenguaje grandes, Next Forcing introduce un objetivo de entrenamiento MCP que amplía el modelo principal con módulos MCP auxiliares ligeros para denoising simultáneo de fragmentos de video en múltiples horizontes temporales futuros (próximo^1, próximo^2, próximo^3 fragmentos). Estos módulos MCP forman una cadena causal a través de profundidades de predicción, donde se aprovechan características intermedias fusionadas de múltiples capas del modelo principal para predecir la dinámica futura, permitiendo que las predicciones del futuro cercano informen las del futuro más lejano y proporcionando una supervisión temporal densa y multiescala de vuelta al modelo principal. Durante el entrenamiento, los módulos MCP aceleran significativamente la convergencia y mejoran la precisión en la convergencia, especialmente en altas tasas de cuadros: a 50 fps, Next Forcing logra una mejora relativa del 93,1% sobre LingBot-VA en 5000 pasos de entrenamiento y una convergencia 2,3 veces más rápida, y establece nuevos resultados de última generación en el punto de referencia RoboTwin (94,1/93,5% en Limpio/Aleatorio). En la inferencia, los módulos MCP pueden conservarse para predecir el próximo fragmento de video en paralelo con el actual, logrando una aceleración de inferencia de 2 veces. Next Forcing también demuestra mejoras significativas en PhyWorld, un punto de referencia que evalúa la adherencia a las leyes físicas en la generación de video, y una reducción de más del 50% en FVD en el preentrenamiento general de video.

English

Autoregressive video generation has emerged as a powerful paradigm for World Action Models (WAMs). However, existing approaches suffer from slow training convergence and limited converged accuracy, particularly at high frame rates, as the training supervision is confined to the current chunk without explicit signals about future dynamics; they also suffer from slow inference due to iterative video denoising. In this paper, we present Next Forcing, a multi-chunk prediction (MCP) framework for causal world modeling that enables faster training, higher accuracy, and accelerated inference. Inspired by multi-token prediction in large language models, Next Forcing introduces an MCP training objective that augments the main model with lightweight auxiliary MCP modules to simultaneously denoise video chunks at multiple future temporal horizons (next^1, next^2, next^3 chunks). These MCP modules form a causal chain across prediction depths, where intermediate features fused from multiple layers of the main model are leveraged to predict future dynamics, allowing near-future predictions to inform farther-future ones and providing dense multi-scale temporal supervision back to the main model. During training, the MCP modules significantly accelerate convergence and improve converged accuracy, especially at high frame rates: at 50 fps, Next Forcing achieves a 93.1% relative improvement over LingBot-VA at 5k training steps and 2.3x faster convergence, and establishes new state-of-the-art results on the RoboTwin benchmark (94.1/93.5% on Clean/Random). At inference, the MCP modules can be retained to predict the next video chunk in parallel with the current one, achieving 2x inference acceleration. Next Forcing also demonstrates significant improvements on PhyWorld, a benchmark evaluating adherence to physical laws in video generation, and over 50% FVD reduction on general video pretraining.