AO VIVO: Modelagem de Mundos de Vídeo Interativos de Longo Horizonte

Resumo

Os modelos de mundo de vídeo autoregressivos preveem observações visuais futuras condicionadas a ações. Embora eficazes em horizontes curtos, esses modelos frequentemente lutam com geração de longo prazo, pois pequenos erros de previsão se acumulam ao longo do tempo. Métodos anteriores aliviam isso introduzindo modelos professores pré-treinados e correspondência de distribuição em nível de sequência, o que acarreta custo computacional adicional e falha em impedir a propagação de erros além do horizonte de treinamento. Neste trabalho, propomos o LIVE, um modelo de mundo de vídeo interativo de longo horizonte que impõe acumulação de erro limitada por meio de um novo objetivo de consistência cíclica, eliminando assim a necessidade de destilação baseada em professor. Especificamente, o LIVE primeiro executa um rollout progressivo a partir de quadros de verdade fundamental e depois aplica um processo de geração reversa para reconstruir o estado inicial. A perda de difusão é subsequentemente calculada no estado terminal reconstruído, fornecendo uma restrição explícita na propagação de erro de longo prazo. Além disso, fornecemos uma visão unificada que abrange diferentes abordagens e introduzimos um currículo de treinamento progressivo para estabilizar o treinamento. Experimentos demonstram que o LIVE alcança desempenho state-of-the-art em benchmarks de longo prazo, gerando vídeos estáveis e de alta qualidade muito além dos comprimentos de rollout de treinamento.

English

Autoregressive video world models predict future visual observations conditioned on actions. While effective over short horizons, these models often struggle with long-horizon generation, as small prediction errors accumulate over time. Prior methods alleviate this by introducing pre-trained teacher models and sequence-level distribution matching, which incur additional computational cost and fail to prevent error propagation beyond the training horizon. In this work, we propose LIVE, a Long-horizon Interactive Video world modEl that enforces bounded error accumulation via a novel cycle-consistency objective, thereby eliminating the need for teacher-based distillation. Specifically, LIVE first performs a forward rollout from ground-truth frames and then applies a reverse generation process to reconstruct the initial state. The diffusion loss is subsequently computed on the reconstructed terminal state, providing an explicit constraint on long-horizon error propagation. Moreover, we provide an unified view that encompasses different approaches and introduce progressive training curriculum to stabilize training. Experiments demonstrate that LIVE achieves state-of-the-art performance on long-horizon benchmarks, generating stable, high-quality videos far beyond training rollout lengths.

AO VIVO: Modelagem de Mundos de Vídeo Interativos de Longo Horizonte

LIVE: Long-horizon Interactive Video World Modeling

Resumo

Support