Следующее принуждение: каузальное моделирование мира с многоблочным прогнозированием

Аннотация

Авторегрессивная генерация видео стала мощной парадигмой для моделей мировых действий (World Action Models, WAMs). Однако существующие подходы страдают от медленной сходимости обучения и ограниченной точности на этапе сходимости, особенно при высоких частотах кадров, поскольку обучающий контроль ограничен текущим блоком без явных сигналов о будущей динамике; они также страдают от медленного инференса из-за итеративного шумоподавления видео. В данной статье мы представляем Next Forcing — фреймворк многоблочного предсказания (multi-chunk prediction, MCP) для каузального моделирования мира, который обеспечивает более быстрое обучение, более высокую точность и ускоренный инференс. Вдохновленный многотокенным предсказанием в больших языковых моделях, Next Forcing вводит цель обучения MCP, дополняющую основную модель легковесными вспомогательными MCP-модулями для одновременного шумоподавления видеоблоков на нескольких будущих временных горизонтах (next^1, next^2, next^3 блоки). Эти MCP-модули образуют каузальную цепь по глубине предсказаний, где промежуточные признаки, объединенные из нескольких слоев основной модели, используются для предсказания будущей динамики, что позволяет предсказаниям ближайшего будущего информировать более отдаленные и обеспечивает плотный многомасштабный временной контроль для основной модели. Во время обучения MCP-модули значительно ускоряют сходимость и улучшают точность на этапе сходимости, особенно при высоких частотах кадров: при 50 кадрах/с Next Forcing достигает относительного улучшения на 93,1% по сравнению с LingBot-VA при 5000 шагах обучения и ускорения сходимости в 2,3 раза, а также устанавливает новые современные результаты на бенчмарке RoboTwin (94,1/93,5% на Clean/Random). На этапе инференса MCP-модули могут быть сохранены для предсказания следующего видеоблока параллельно с текущим, что обеспечивает ускорение инференса в 2 раза. Next Forcing также демонстрирует значительные улучшения на PhyWorld — бенчмарке, оценивающем соблюдение физических законов в генерации видео, и более чем 50% снижение FVD на общем претренировочном этапе видео.

English

Autoregressive video generation has emerged as a powerful paradigm for World Action Models (WAMs). However, existing approaches suffer from slow training convergence and limited converged accuracy, particularly at high frame rates, as the training supervision is confined to the current chunk without explicit signals about future dynamics; they also suffer from slow inference due to iterative video denoising. In this paper, we present Next Forcing, a multi-chunk prediction (MCP) framework for causal world modeling that enables faster training, higher accuracy, and accelerated inference. Inspired by multi-token prediction in large language models, Next Forcing introduces an MCP training objective that augments the main model with lightweight auxiliary MCP modules to simultaneously denoise video chunks at multiple future temporal horizons (next^1, next^2, next^3 chunks). These MCP modules form a causal chain across prediction depths, where intermediate features fused from multiple layers of the main model are leveraged to predict future dynamics, allowing near-future predictions to inform farther-future ones and providing dense multi-scale temporal supervision back to the main model. During training, the MCP modules significantly accelerate convergence and improve converged accuracy, especially at high frame rates: at 50 fps, Next Forcing achieves a 93.1% relative improvement over LingBot-VA at 5k training steps and 2.3x faster convergence, and establishes new state-of-the-art results on the RoboTwin benchmark (94.1/93.5% on Clean/Random). At inference, the MCP modules can be retained to predict the next video chunk in parallel with the current one, achieving 2x inference acceleration. Next Forcing also demonstrates significant improvements on PhyWorld, a benchmark evaluating adherence to physical laws in video generation, and over 50% FVD reduction on general video pretraining.