Next Forcing: Causale Wereldmodellering met Multi-Chunk Voorspelling

Samenvatting

Autoregressieve videogeneratie is naar voren gekomen als een krachtig paradigma voor World Action Models (WAM's). Bestaande benaderingen hebben echter last van trage trainingsconvergentie en beperkte geconvergeerde nauwkeurigheid, met name bij hoge framerates, aangezien de trainingssupervisie beperkt is tot het huidige chunk zonder expliciete signalen over toekomstige dynamiek; ze hebben ook last van trage inferentie door iteratieve videodenoisering. In dit artikel presenteren we Next Forcing, een multi-chunk predictie (MCP) raamwerk voor causale wereldmodellering dat snellere training, hogere nauwkeurigheid en versnelde inferentie mogelijk maakt. Geïnspireerd door multi-token predictie in grote taalmodellen introduceert Next Forcing een MCP-trainingsdoelstelling die het hoofdmodel aanvult met lichtgewicht hulp-MCP-modules om gelijktijdig videochunks op meerdere toekomstige tijdelijke horizonten (next^1, next^2, next^3 chunks) te denoiseren. Deze MCP-modules vormen een causale keten over predictiediepten, waarbij tussentijdse kenmerken die uit meerdere lagen van het hoofdmodel zijn gefuseerd, worden gebruikt om toekomstige dynamiek te voorspellen, waardoor nabije-toekomstvoorspellingen verder-gelegen toekomstvoorspellingen kunnen informeren en dichte multi-schaal tijdelijke supervisie teruggeven aan het hoofdmodel. Tijdens de training versnellen de MCP-modules de convergentie aanzienlijk en verbeteren ze de geconvergeerde nauwkeurigheid, met name bij hoge framerates: bij 50 fps behaalt Next Forcing een relatieve verbetering van 93,1% ten opzichte van LingBot-VA bij 5k trainingsstappen en 2,3x snellere convergentie, en vestigt het nieuwe state-of-the-art resultaten op de RoboTwin-benchmark (94,1/93,5% op Clean/Random). Bij inferentie kunnen de MCP-modules worden behouden om het volgende videochunk parallel aan het huidige te voorspellen, wat een 2x inferentieversnelling oplevert. Next Forcing toont ook significante verbeteringen op PhyWorld, een benchmark die naleving van fysica-wetten in videogeneratie evalueert, en meer dan 50% FVD-reductie op algemene videopretraining.

English

Autoregressive video generation has emerged as a powerful paradigm for World Action Models (WAMs). However, existing approaches suffer from slow training convergence and limited converged accuracy, particularly at high frame rates, as the training supervision is confined to the current chunk without explicit signals about future dynamics; they also suffer from slow inference due to iterative video denoising. In this paper, we present Next Forcing, a multi-chunk prediction (MCP) framework for causal world modeling that enables faster training, higher accuracy, and accelerated inference. Inspired by multi-token prediction in large language models, Next Forcing introduces an MCP training objective that augments the main model with lightweight auxiliary MCP modules to simultaneously denoise video chunks at multiple future temporal horizons (next^1, next^2, next^3 chunks). These MCP modules form a causal chain across prediction depths, where intermediate features fused from multiple layers of the main model are leveraged to predict future dynamics, allowing near-future predictions to inform farther-future ones and providing dense multi-scale temporal supervision back to the main model. During training, the MCP modules significantly accelerate convergence and improve converged accuracy, especially at high frame rates: at 50 fps, Next Forcing achieves a 93.1% relative improvement over LingBot-VA at 5k training steps and 2.3x faster convergence, and establishes new state-of-the-art results on the RoboTwin benchmark (94.1/93.5% on Clean/Random). At inference, the MCP modules can be retained to predict the next video chunk in parallel with the current one, achieving 2x inference acceleration. Next Forcing also demonstrates significant improvements on PhyWorld, a benchmark evaluating adherence to physical laws in video generation, and over 50% FVD reduction on general video pretraining.