Next Forcing: Kausale Weltmodellierung mit Multi-Chunk-Vorhersage

Zusammenfassung

Autoregressive Videogenerierung hat sich als ein leistungsfähiges Paradigma für World Action Models (WAMs) etabliert. Bestehende Ansätze leiden jedoch unter langsamer Trainingskonvergenz und begrenzter konvergierter Genauigkeit, insbesondere bei hohen Bildraten, da die Trainingsüberwachung auf den aktuellen Chunk beschränkt ist, ohne explizite Signale zur zukünftigen Dynamik; zudem ist die Inferenz aufgrund iterativer Videoentrauschung langsam. In diesem Artikel präsentieren wir Next Forcing, ein Multi-Chunk-Prediction (MCP)-Framework für kausale Weltmodellierung, das schnelleres Training, höhere Genauigkeit und beschleunigte Inferenz ermöglicht. Inspiriert von der Multi-Token-Vorhersage in großen Sprachmodellen führt Next Forcing ein MCP-Trainingsziel ein, das das Hauptmodell mit leichten, auxiliären MCP-Modulen erweitert, um gleichzeitig Video-Chunks über mehrere zukünftige Zeithorizonte hinweg zu entrauschen (nächster^1, nächster^2, nächster^3 Chunk). Diese MCP-Module bilden eine kausale Kette über Vorhersagetiefen, bei der Zwischenmerkmale, die aus mehreren Schichten des Hauptmodells fusioniert werden, zur Vorhersage zukünftiger Dynamiken genutzt werden. Dies ermöglicht es, dass Vorhersagen der nahen Zukunft die der ferneren Zukunft informieren und bietet dem Hauptmodell eine dichte, mehrskalige zeitliche Überwachung. Während des Trainings beschleunigen die MCP-Module die Konvergenz erheblich und verbessern die konvergierte Genauigkeit, insbesondere bei hohen Bildraten: Bei 50 fps erreicht Next Forcing eine relative Verbesserung von 93,1% gegenüber LingBot-VA nach 5k Trainingsschritten und eine 2,3-fach schnellere Konvergenz und erzielt neue State-of-the-Art-Ergebnisse auf dem RoboTwin-Benchmark (94,1/93,5% auf Clean/Random). Bei der Inferenz können die MCP-Module beibehalten werden, um den nächsten Video-Chunk parallel zum aktuellen vorherzusagen, was eine 2-fache Inferenzbeschleunigung ermöglicht. Next Forcing zeigt auch signifikante Verbesserungen auf PhyWorld, einem Benchmark zur Bewertung der Einhaltung physikalischer Gesetze bei der Videogenerierung, und eine Reduzierung der FVD um über 50% beim allgemeinen Video-Pretraining.

English

Autoregressive video generation has emerged as a powerful paradigm for World Action Models (WAMs). However, existing approaches suffer from slow training convergence and limited converged accuracy, particularly at high frame rates, as the training supervision is confined to the current chunk without explicit signals about future dynamics; they also suffer from slow inference due to iterative video denoising. In this paper, we present Next Forcing, a multi-chunk prediction (MCP) framework for causal world modeling that enables faster training, higher accuracy, and accelerated inference. Inspired by multi-token prediction in large language models, Next Forcing introduces an MCP training objective that augments the main model with lightweight auxiliary MCP modules to simultaneously denoise video chunks at multiple future temporal horizons (next^1, next^2, next^3 chunks). These MCP modules form a causal chain across prediction depths, where intermediate features fused from multiple layers of the main model are leveraged to predict future dynamics, allowing near-future predictions to inform farther-future ones and providing dense multi-scale temporal supervision back to the main model. During training, the MCP modules significantly accelerate convergence and improve converged accuracy, especially at high frame rates: at 50 fps, Next Forcing achieves a 93.1% relative improvement over LingBot-VA at 5k training steps and 2.3x faster convergence, and establishes new state-of-the-art results on the RoboTwin benchmark (94.1/93.5% on Clean/Random). At inference, the MCP modules can be retained to predict the next video chunk in parallel with the current one, achieving 2x inference acceleration. Next Forcing also demonstrates significant improvements on PhyWorld, a benchmark evaluating adherence to physical laws in video generation, and over 50% FVD reduction on general video pretraining.