EN VIVO: Modelado de Mundos de Video Interactivo de Largo Horizonte
LIVE: Long-horizon Interactive Video World Modeling
February 3, 2026
Autores: Junchao Huang, Ziyang Ye, Xinting Hu, Tianyu He, Guiyu Zhang, Shaoshuai Shi, Jiang Bian, Li Jiang
cs.AI
Resumen
Los modelos de mundo video autoregresivos predicen observaciones visuales futuras condicionadas a acciones. Si bien son efectivos en horizontes cortos, estos modelos a menudo tienen dificultades con la generación de largo horizonte, ya que los pequeños errores de predicción se acumulan con el tiempo. Métodos anteriores mitigan esto introduciendo modelos profesor preentrenados y una coincidencia de distribución a nivel de secuencia, lo que conlleva un coste computacional adicional y no logra prevenir la propagación de errores más allá del horizonte de entrenamiento. En este trabajo, proponemos LIVE, un modelo de mundo video interactivo de Largo horIzonte que impone una acumulación de error acotada mediante un novedoso objetivo de consistencia cíclica, eliminando así la necesidad de destilación basada en un profesor. Específicamente, LIVE primero realiza un *rollout* hacia adelante a partir de fotogramas de verdad terreno y luego aplica un proceso de generación inverso para reconstruir el estado inicial. La pérdida de difusión se calcula posteriormente en el estado terminal reconstruido, proporcionando una restricción explícita sobre la propagación de errores a largo horizonte. Además, ofrecemos una visión unificada que engloba diferentes enfoques e introducimos un currículum de entrenamiento progresivo para estabilizar el entrenamiento. Los experimentos demuestran que LIVE logra un rendimiento de vanguardia en benchmarks de largo horizonte, generando videos estables y de alta calidad mucho más allá de las longitudes de *rollout* de entrenamiento.
English
Autoregressive video world models predict future visual observations conditioned on actions. While effective over short horizons, these models often struggle with long-horizon generation, as small prediction errors accumulate over time. Prior methods alleviate this by introducing pre-trained teacher models and sequence-level distribution matching, which incur additional computational cost and fail to prevent error propagation beyond the training horizon. In this work, we propose LIVE, a Long-horizon Interactive Video world modEl that enforces bounded error accumulation via a novel cycle-consistency objective, thereby eliminating the need for teacher-based distillation. Specifically, LIVE first performs a forward rollout from ground-truth frames and then applies a reverse generation process to reconstruct the initial state. The diffusion loss is subsequently computed on the reconstructed terminal state, providing an explicit constraint on long-horizon error propagation. Moreover, we provide an unified view that encompasses different approaches and introduce progressive training curriculum to stabilize training. Experiments demonstrate that LIVE achieves state-of-the-art performance on long-horizon benchmarks, generating stable, high-quality videos far beyond training rollout lengths.