Forçage suivant : Modélisation causale du monde avec prédiction multi-blocs

Résumé

La génération vidéo autorégressive est devenue un paradigme puissant pour les modèles d'action mondiale (World Action Models, WAMs). Cependant, les approches existantes souffrent d'une convergence d'apprentissage lente et d'une précision de convergence limitée, en particulier à des fréquences d'images élevées, car la supervision de l'apprentissage est confinée au segment actuel sans signaux explicites sur les dynamiques futures ; elles souffrent également d'une inférence lente en raison du débruitage vidéo itératif. Dans cet article, nous présentons Next Forcing, un cadre de prédiction multi-segment (MCP) pour la modélisation causale du monde qui permet un apprentissage plus rapide, une précision plus élevée et une inférence accélérée. Inspiré par la prédiction multi-token dans les grands modèles de langage, Next Forcing introduit un objectif d'apprentissage MCP qui augmente le modèle principal avec des modules MCP auxiliaires légers pour débruiter simultanément des segments vidéo à plusieurs horizons temporels futurs (segments next^1, next^2, next^3). Ces modules MCP forment une chaîne causale à travers les profondeurs de prédiction, où les caractéristiques intermédiaires fusionnées à partir de plusieurs couches du modèle principal sont utilisées pour prédire les dynamiques futures, permettant aux prédictions à court terme d'informer celles à plus long terme et fournissant une supervision temporelle multi-échelle dense en retour au modèle principal. Pendant l'apprentissage, les modules MCP accélèrent considérablement la convergence et améliorent la précision de convergence, en particulier à des fréquences d'images élevées : à 50 fps, Next Forcing atteint une amélioration relative de 93,1 % par rapport à LingBot-VA après 5 000 étapes d'apprentissage et une convergence 2,3 fois plus rapide, et établit de nouveaux résultats de pointe sur le benchmark RoboTwin (94,1 / 93,5 % sur Clean/Random). Lors de l'inférence, les modules MCP peuvent être conservés pour prédire le prochain segment vidéo en parallèle avec le segment actuel, réalisant une accélération de l'inférence de 2 fois. Next Forcing démontre également des améliorations significatives sur PhyWorld, un benchmark évaluant le respect des lois physiques dans la génération vidéo, et une réduction de plus de 50 % du FVD lors du pré-entraînement vidéo général.

English

Autoregressive video generation has emerged as a powerful paradigm for World Action Models (WAMs). However, existing approaches suffer from slow training convergence and limited converged accuracy, particularly at high frame rates, as the training supervision is confined to the current chunk without explicit signals about future dynamics; they also suffer from slow inference due to iterative video denoising. In this paper, we present Next Forcing, a multi-chunk prediction (MCP) framework for causal world modeling that enables faster training, higher accuracy, and accelerated inference. Inspired by multi-token prediction in large language models, Next Forcing introduces an MCP training objective that augments the main model with lightweight auxiliary MCP modules to simultaneously denoise video chunks at multiple future temporal horizons (next^1, next^2, next^3 chunks). These MCP modules form a causal chain across prediction depths, where intermediate features fused from multiple layers of the main model are leveraged to predict future dynamics, allowing near-future predictions to inform farther-future ones and providing dense multi-scale temporal supervision back to the main model. During training, the MCP modules significantly accelerate convergence and improve converged accuracy, especially at high frame rates: at 50 fps, Next Forcing achieves a 93.1% relative improvement over LingBot-VA at 5k training steps and 2.3x faster convergence, and establishes new state-of-the-art results on the RoboTwin benchmark (94.1/93.5% on Clean/Random). At inference, the MCP modules can be retained to predict the next video chunk in parallel with the current one, achieving 2x inference acceleration. Next Forcing also demonstrates significant improvements on PhyWorld, a benchmark evaluating adherence to physical laws in video generation, and over 50% FVD reduction on general video pretraining.