ChatPaper.aiChatPaper

LIVE: Interactieve videowereldmodellering op lange termijn

LIVE: Long-horizon Interactive Video World Modeling

February 3, 2026
Auteurs: Junchao Huang, Ziyang Ye, Xinting Hu, Tianyu He, Guiyu Zhang, Shaoshuai Shi, Jiang Bian, Li Jiang
cs.AI

Samenvatting

Autoregressieve videowereldmodellen voorspellen toekomstige visuele waarnemingen op basis van acties. Hoewel ze effectief zijn over korte tijdshorizons, worstelen deze modellen vaak met generatie over lange horizons, omdat kleine voorspellingsfouten zich in de tijd opstapelen. Eerdere methoden verlichten dit door voorgetrainde leraarmodellen en sequentieniveau-distributie-afstemming in te voeren, wat extra rekenkosten met zich meebrengt en niet voorkomt dat fouten zich voorbij de trainingshorizon voortplanten. In dit werk stellen we LIVE voor, een Long-horizon Interactive Video world modEl die begrensde foutaccumulatie afdwingt via een nieuwe cyclusconsistentie-objectief, waardoor op leraren gebaseerde distillatie overbodig wordt. Specifiek voert LIVE eerst een forward rollout uit vanaf grondwaarheid-frames en past vervolgens een omgekeerd generatieproces toe om de initiële staat te reconstrueren. Het diffusieverlies wordt vervolgens berekend op de gereconstrueerde eindtoestand, wat een expliciete beperking oplegt aan foutvoortplanting over lange horizons. Bovendien bieden we een verenigde kijk die verschillende benaderingen omvat en introduceren we een progressieve trainingscurriculum om de training te stabiliseren. Experimenten tonen aan dat LIVE state-of-the-art prestaties bereikt op lange-horizon benchmarks, waarbij stabiele, hoogwaardige video's worden gegenereerd ver voorbij de trainingsrollout-lengtes.
English
Autoregressive video world models predict future visual observations conditioned on actions. While effective over short horizons, these models often struggle with long-horizon generation, as small prediction errors accumulate over time. Prior methods alleviate this by introducing pre-trained teacher models and sequence-level distribution matching, which incur additional computational cost and fail to prevent error propagation beyond the training horizon. In this work, we propose LIVE, a Long-horizon Interactive Video world modEl that enforces bounded error accumulation via a novel cycle-consistency objective, thereby eliminating the need for teacher-based distillation. Specifically, LIVE first performs a forward rollout from ground-truth frames and then applies a reverse generation process to reconstruct the initial state. The diffusion loss is subsequently computed on the reconstructed terminal state, providing an explicit constraint on long-horizon error propagation. Moreover, we provide an unified view that encompasses different approaches and introduce progressive training curriculum to stabilize training. Experiments demonstrate that LIVE achieves state-of-the-art performance on long-horizon benchmarks, generating stable, high-quality videos far beyond training rollout lengths.
PDF123February 8, 2026