LIVE: Моделирование интерактивного видеомира с длинным горизонтом планирования
LIVE: Long-horizon Interactive Video World Modeling
February 3, 2026
Авторы: Junchao Huang, Ziyang Ye, Xinting Hu, Tianyu He, Guiyu Zhang, Shaoshuai Shi, Jiang Bian, Li Jiang
cs.AI
Аннотация
Авторегрессионные видеомиры моделируют будущие визуальные наблюдения, обусловленные действиями. Хотя они эффективны на коротких горизонтах, эти модели часто сталкиваются с трудностями при генерации на длинных горизонтах, поскольку небольшие ошибки предсказания накапливаются со временем. Существующие методы смягчают эту проблему за счет введения предварительно обученных учительских моделей и согласования распределений на уровне последовательностей, что влечет дополнительные вычислительные затраты и не предотвращает распространение ошибок за пределы обучающего горизонта. В данной работе мы предлагаем LIVE — интерактивную видеомодель мира для длинных горизонтов, которая ограничивает накопление ошибок с помощью новой цели цикличной согласованности, устраняя необходимость в дистилляции на основе учителя. В частности, LIVE сначала выполняет прямое прогнозирование из реальных кадров, а затем применяет обратный процесс генерации для восстановления исходного состояния. Диффузионная потеря вычисляется для реконструированного конечного состояния, создавая явное ограничение на распространение ошибок на длинных горизонтах. Кроме того, мы предлагаем единую модель, объединяющую различные подходы, и вводим прогрессивный учебный план для стабилизации обучения. Эксперименты показывают, что LIVE достигает передовых результатов на бенчмарках для длинных горизонтов, генерируя стабильные высококачественные видео далеко за пределами длин обучающих последовательностей.
English
Autoregressive video world models predict future visual observations conditioned on actions. While effective over short horizons, these models often struggle with long-horizon generation, as small prediction errors accumulate over time. Prior methods alleviate this by introducing pre-trained teacher models and sequence-level distribution matching, which incur additional computational cost and fail to prevent error propagation beyond the training horizon. In this work, we propose LIVE, a Long-horizon Interactive Video world modEl that enforces bounded error accumulation via a novel cycle-consistency objective, thereby eliminating the need for teacher-based distillation. Specifically, LIVE first performs a forward rollout from ground-truth frames and then applies a reverse generation process to reconstruct the initial state. The diffusion loss is subsequently computed on the reconstructed terminal state, providing an explicit constraint on long-horizon error propagation. Moreover, we provide an unified view that encompasses different approaches and introduce progressive training curriculum to stabilize training. Experiments demonstrate that LIVE achieves state-of-the-art performance on long-horizon benchmarks, generating stable, high-quality videos far beyond training rollout lengths.