LIVE: Langfristige interaktive Videoweltenmodellierung
LIVE: Long-horizon Interactive Video World Modeling
February 3, 2026
papers.authors: Junchao Huang, Ziyang Ye, Xinting Hu, Tianyu He, Guiyu Zhang, Shaoshuai Shi, Jiang Bian, Li Jiang
cs.AI
papers.abstract
Autoregressive Videoweltsmodelle sagen zukünftige visuelle Beobachtungen auf der Grundlage von Aktionen voraus. Obwohl sie über kurze Zeithorizonte effektiv sind, haben diese Modelle oft Schwierigkeiten mit der Langzeiterzeugung, da sich kleine Vorhersagefehler im Laufe der Zeit akkumulieren. Bisherige Methoden mildern dies durch den Einsatz vortrainierter Lehrermodelle und Sequenzebenen-Distributionsabgleich, was zusätzliche Rechenkosten verursacht und die Fehlerausbreitung über den Trainingshorizont hinaus nicht verhindert. In dieser Arbeit schlagen wir LIVE vor, ein Langzeits-Interaktives Videoweltmodell, das eine begrenzte Fehlerakkumulation durch ein neuartiges Zyklus-Konsistenz-Ziel erzwingt und so die Notwendigkeit einer lehrergestützten Destillation beseitigt. Konkret führt LIVE zunächst einen Vorwärts-Durchlauf aus ground-truth Bildern durch und wendet dann einen umgekehrten Generierungsprozess an, um den Ausgangszustand zu rekonstruieren. Der Diffusionsverlust wird anschließend für den rekonstruierten Endzustand berechnet, was eine explizite Beschränkung der Langzeit-Fehlerausbreitung darstellt. Darüber hinaus bieten wir eine einheitliche Betrachtungsweise, die verschiedene Ansätze umfasst, und führen einen progressiven Trainingslehrplan zur Stabilisierung des Trainings ein. Experimente zeigen, dass LIVE state-of-the-art Leistung in Langzeit-Benchmarks erreicht und stabile, hochwertige Videos erzeugt, die weit über die Trainingssequenzlängen hinausgehen.
English
Autoregressive video world models predict future visual observations conditioned on actions. While effective over short horizons, these models often struggle with long-horizon generation, as small prediction errors accumulate over time. Prior methods alleviate this by introducing pre-trained teacher models and sequence-level distribution matching, which incur additional computational cost and fail to prevent error propagation beyond the training horizon. In this work, we propose LIVE, a Long-horizon Interactive Video world modEl that enforces bounded error accumulation via a novel cycle-consistency objective, thereby eliminating the need for teacher-based distillation. Specifically, LIVE first performs a forward rollout from ground-truth frames and then applies a reverse generation process to reconstruct the initial state. The diffusion loss is subsequently computed on the reconstructed terminal state, providing an explicit constraint on long-horizon error propagation. Moreover, we provide an unified view that encompasses different approaches and introduce progressive training curriculum to stabilize training. Experiments demonstrate that LIVE achieves state-of-the-art performance on long-horizon benchmarks, generating stable, high-quality videos far beyond training rollout lengths.