ChatPaper.aiChatPaper

LIVE: 長期的インタラクティブ・ビデオ世界モデリング

LIVE: Long-horizon Interactive Video World Modeling

February 3, 2026
著者: Junchao Huang, Ziyang Ye, Xinting Hu, Tianyu He, Guiyu Zhang, Shaoshuai Shi, Jiang Bian, Li Jiang
cs.AI

要旨

オートリグレッシブ動画世界モデルは、行動を条件として将来の視覚観測を予測する。短期的には効果的であるものの、これらのモデルは長期的な生成において困難に直面することが多い。これは、わずかな予測誤差が時間とともに蓄積するためである。従来手法では、事前学習済み教師モデルの導入や系列レベルの分布マッチングによってこの問題を緩和してきたが、これらは計算コストを増大させ、学習範囲を超えた誤差伝播の防止には至らない。本研究では、LIVE(Long-horizon Interactive Video world modEl)を提案する。LIVEは新規のサイズ一貫性目的関数により誤差蓄積を抑制し、教師ベースの蒸留を不要とする。具体的には、LIVEはまず正解フレームから順方向のロールアウトを実行し、逆生成プロセスを適用して初期状態を再構築する。その後、再構築された終端状態に対して拡散損失を計算し、長期的な誤差伝播に対する明示的な制約を提供する。さらに、様々な手法を包括する統一的な視点を提示し、訓練を安定化させる段階的訓練カリキュラムを導入する。実験により、LIVEが長期的ベンチマークにおいて state-of-the-art 性能を達成し、訓練ロールアウト長を大幅に超えた安定かつ高品質な動画を生成することを実証する。
English
Autoregressive video world models predict future visual observations conditioned on actions. While effective over short horizons, these models often struggle with long-horizon generation, as small prediction errors accumulate over time. Prior methods alleviate this by introducing pre-trained teacher models and sequence-level distribution matching, which incur additional computational cost and fail to prevent error propagation beyond the training horizon. In this work, we propose LIVE, a Long-horizon Interactive Video world modEl that enforces bounded error accumulation via a novel cycle-consistency objective, thereby eliminating the need for teacher-based distillation. Specifically, LIVE first performs a forward rollout from ground-truth frames and then applies a reverse generation process to reconstruct the initial state. The diffusion loss is subsequently computed on the reconstructed terminal state, providing an explicit constraint on long-horizon error propagation. Moreover, we provide an unified view that encompasses different approaches and introduce progressive training curriculum to stabilize training. Experiments demonstrate that LIVE achieves state-of-the-art performance on long-horizon benchmarks, generating stable, high-quality videos far beyond training rollout lengths.
PDF71February 5, 2026