LIVE: Modellazione Interattiva del Mondo Video a Lungo Orizzonte

Abstract

I modelli video autoregressivi del mondo prevedono osservazioni visive future condizionate sulle azioni. Sebbene efficaci su orizzonti brevi, questi modelli spesso incontrano difficoltà nella generazione a lungo termine, poiché piccoli errori di previsione si accumulano nel tempo. I metodi precedenti mitigano questo problema introducendo modelli insegnante pre-addestrati e una corrispondenza delle distribuzioni a livello di sequenza, che comportano un costo computazionale aggiuntivo e non riescono a prevenire la propagazione degli errori oltre l'orizzonte di addestramento. In questo lavoro, proponiamo LIVE, un modello video interattivo del mondo a lungo orizzonte (Long-horizon Interactive Video world modEl) che impone un accumulo di errori limitato tramite un nuovo obiettivo di consistenza ciclica, eliminando così la necessità di una distillazione basata su un insegnante. Nello specifico, LIVE esegue prima un rollout in avanti partendo dai frame ground-truth e poi applica un processo di generazione inverso per ricostruire lo stato iniziale. La loss di diffusione viene successivamente calcolata sullo stato terminale ricostruito, fornendo un vincolo esplicito sulla propagazione degli errori a lungo termine. Inoltre, forniamo una visione unificata che comprende diversi approcci e introduciamo un curriculum di addestramento progressivo per stabilizzare il training. Gli esperimenti dimostrano che LIVE raggiunge prestazioni all'avanguardia sui benchmark a lungo orizzonte, generando video stabili e di alta qualità ben oltre le lunghezze di rollout di addestramento.

English

Autoregressive video world models predict future visual observations conditioned on actions. While effective over short horizons, these models often struggle with long-horizon generation, as small prediction errors accumulate over time. Prior methods alleviate this by introducing pre-trained teacher models and sequence-level distribution matching, which incur additional computational cost and fail to prevent error propagation beyond the training horizon. In this work, we propose LIVE, a Long-horizon Interactive Video world modEl that enforces bounded error accumulation via a novel cycle-consistency objective, thereby eliminating the need for teacher-based distillation. Specifically, LIVE first performs a forward rollout from ground-truth frames and then applies a reverse generation process to reconstruct the initial state. The diffusion loss is subsequently computed on the reconstructed terminal state, providing an explicit constraint on long-horizon error propagation. Moreover, we provide an unified view that encompasses different approaches and introduce progressive training curriculum to stabilize training. Experiments demonstrate that LIVE achieves state-of-the-art performance on long-horizon benchmarks, generating stable, high-quality videos far beyond training rollout lengths.

LIVE: Modellazione Interattiva del Mondo Video a Lungo Orizzonte

LIVE: Long-horizon Interactive Video World Modeling

Abstract

Support