EN DIRECT : Modélisation interactive du monde vidéo à long horizon
LIVE: Long-horizon Interactive Video World Modeling
February 3, 2026
papers.authors: Junchao Huang, Ziyang Ye, Xinting Hu, Tianyu He, Guiyu Zhang, Shaoshuai Shi, Jiang Bian, Li Jiang
cs.AI
papers.abstract
Les modèles vidéo autoregressifs prédisent les observations visuelles futures conditionnées par des actions. Bien qu'efficaces sur des horizons courts, ces modèles peinent souvent avec la génération à long terme, car les petites erreurs de prédiction s'accumulent dans le temps. Les méthodes existantes atténuent ce problème en introduisant des modèles enseignants pré-entraînés et un appariement de distribution au niveau séquentiel, ce qui engendre un coût computationnel supplémentaire et n'empêche pas la propagation des erreurs au-delà de l'horizon d'entraînement. Dans ce travail, nous proposons LIVE, un modèle vidéo interactif à long horizon qui impose une accumulation d'erreurs bornée via un nouvel objectif de cohérence cyclique, éliminant ainsi le besoin de distillation par modèle enseignant. Concrètement, LIVE effectue d'abord un déploiement avant à partir d'images réelles, puis applique un processus de génération inverse pour reconstruire l'état initial. La perte de diffusion est ensuite calculée sur l'état terminal reconstruit, fournissant une contrainte explicite sur la propagation des erreurs à long horizon. De plus, nous proposons une vue unifiée englobant différentes approches et introduisons un curriculum d'entraînement progressif pour stabiliser l'apprentissage. Les expériences démontrent que LIVE atteint des performances de pointe sur des benchmarks à long horizon, générant des vidéos stables et de haute qualité bien au-delà des longueurs de déploiement d'entraînement.
English
Autoregressive video world models predict future visual observations conditioned on actions. While effective over short horizons, these models often struggle with long-horizon generation, as small prediction errors accumulate over time. Prior methods alleviate this by introducing pre-trained teacher models and sequence-level distribution matching, which incur additional computational cost and fail to prevent error propagation beyond the training horizon. In this work, we propose LIVE, a Long-horizon Interactive Video world modEl that enforces bounded error accumulation via a novel cycle-consistency objective, thereby eliminating the need for teacher-based distillation. Specifically, LIVE first performs a forward rollout from ground-truth frames and then applies a reverse generation process to reconstruct the initial state. The diffusion loss is subsequently computed on the reconstructed terminal state, providing an explicit constraint on long-horizon error propagation. Moreover, we provide an unified view that encompasses different approaches and introduce progressive training curriculum to stabilize training. Experiments demonstrate that LIVE achieves state-of-the-art performance on long-horizon benchmarks, generating stable, high-quality videos far beyond training rollout lengths.