Next Forcing: Modelagem Causal do Mundo com Predição Multi-Chunk

Resumo

A geração autoregressiva de vídeo emergiu como um paradigma poderoso para Modelos de Ação no Mundo (WAMs). No entanto, as abordagens existentes sofrem de convergência lenta no treinamento e precisão convergida limitada, particularmente em altas taxas de quadros, pois a supervisão do treinamento está confinada ao bloco atual, sem sinais explícitos sobre a dinâmica futura; também sofrem de inferência lenta devido à remoção iterativa de ruído do vídeo. Neste artigo, apresentamos o Next Forcing, uma estrutura de predição de múltiplos blocos (MCP) para modelagem causal do mundo que possibilita treinamento mais rápido, maior precisão e inferência acelerada. Inspirado pela predição de múltiplos tokens em grandes modelos de linguagem, o Next Forcing introduz um objetivo de treinamento MCP que aumenta o modelo principal com módulos MCP auxiliares leves para remover simultaneamente o ruído de blocos de vídeo em múltiplos horizontes temporais futuros (próximo¹, próximo², próximo³ blocos). Esses módulos MCP formam uma cadeia causal através das profundidades de predição, onde características intermediárias fundidas de múltiplas camadas do modelo principal são utilizadas para prever a dinâmica futura, permitindo que predições de curto prazo informem predições de mais longo prazo e fornecendo supervisão temporal densa em múltiplas escalas de volta ao modelo principal. Durante o treinamento, os módulos MCP aceleram significativamente a convergência e melhoram a precisão convergida, especialmente em altas taxas de quadros: a 50 fps, o Next Forcing alcança uma melhoria relativa de 93,1% em relação ao LingBot-VA em 5.000 passos de treinamento e convergência 2,3x mais rápida, estabelecendo novos resultados de estado da arte no benchmark RoboTwin (94,1%/93,5% em Clean/Random). Na inferência, os módulos MCP podem ser mantidos para prever o próximo bloco de vídeo em paralelo com o atual, alcançando aceleração de inferência de 2x. O Next Forcing também demonstra melhorias significativas no PhyWorld, um benchmark que avalia a adesão a leis físicas na geração de vídeo, e mais de 50% de redução no FVD em pré-treinamento geral de vídeo.

English

Autoregressive video generation has emerged as a powerful paradigm for World Action Models (WAMs). However, existing approaches suffer from slow training convergence and limited converged accuracy, particularly at high frame rates, as the training supervision is confined to the current chunk without explicit signals about future dynamics; they also suffer from slow inference due to iterative video denoising. In this paper, we present Next Forcing, a multi-chunk prediction (MCP) framework for causal world modeling that enables faster training, higher accuracy, and accelerated inference. Inspired by multi-token prediction in large language models, Next Forcing introduces an MCP training objective that augments the main model with lightweight auxiliary MCP modules to simultaneously denoise video chunks at multiple future temporal horizons (next^1, next^2, next^3 chunks). These MCP modules form a causal chain across prediction depths, where intermediate features fused from multiple layers of the main model are leveraged to predict future dynamics, allowing near-future predictions to inform farther-future ones and providing dense multi-scale temporal supervision back to the main model. During training, the MCP modules significantly accelerate convergence and improve converged accuracy, especially at high frame rates: at 50 fps, Next Forcing achieves a 93.1% relative improvement over LingBot-VA at 5k training steps and 2.3x faster convergence, and establishes new state-of-the-art results on the RoboTwin benchmark (94.1/93.5% on Clean/Random). At inference, the MCP modules can be retained to predict the next video chunk in parallel with the current one, achieving 2x inference acceleration. Next Forcing also demonstrates significant improvements on PhyWorld, a benchmark evaluating adherence to physical laws in video generation, and over 50% FVD reduction on general video pretraining.