ChatPaper.aiChatPaper

라이브: 장기적 상호작용 비디오 세계 모델링

LIVE: Long-horizon Interactive Video World Modeling

February 3, 2026
저자: Junchao Huang, Ziyang Ye, Xinting Hu, Tianyu He, Guiyu Zhang, Shaoshuai Shi, Jiang Bian, Li Jiang
cs.AI

초록

자기회귀 비디오 세계 모델은 행동을 조건으로 미래의 시각 관측을 예측합니다. 이러한 모델은 짧은 시간 범위에서는 효과적이지만, 작은 예측 오류가 시간이 지남에 따라 누적되기 때문에 장기간 생성에는 어려움을 겪는 경우가 많습니다. 기존 방법은 사전 학습된 교사 모델과 시퀀스 수준 분포 매칭을 도입하여 이를 완화하지만, 이는 추가적인 계산 비용을 발생시키며 훈련 범위를 넘어서는 오류 전파를 방지하지 못합니다. 본 연구에서는 새로운 순환 일관성 목적 함수를 통해 오류 누적을 제한함으로써 교사 모델 기반 증류 없이도 장기간 예측이 가능한 LIVE(Long-horizon Interactive Video world modEl)를 제안합니다. 구체적으로, LIVE는 먼저 실제 프레임에서 순방향 롤아웃을 수행한 후, 역방향 생성 과정을 적용하여 초기 상태를 재구성합니다. 그런 다음 재구성된 종단 상태에 대해 확산 손실을 계산하여 장기간 오류 전파에 대한 명시적 제약을 제공합니다. 더불어, 다양한 접근법을 포괄하는 통합된 관점을 제시하고 훈련 안정화를 위한 점진적 훈련 커리큘럼을 도입합니다. 실험 결과, LIVE는 훈련 롤아웃 길이를 훨씬 초과하는 안정적이고 고품질의 비디오를 생성하며 장기간 벤치마크에서 최첨단 성능을 달성함을 입증합니다.
English
Autoregressive video world models predict future visual observations conditioned on actions. While effective over short horizons, these models often struggle with long-horizon generation, as small prediction errors accumulate over time. Prior methods alleviate this by introducing pre-trained teacher models and sequence-level distribution matching, which incur additional computational cost and fail to prevent error propagation beyond the training horizon. In this work, we propose LIVE, a Long-horizon Interactive Video world modEl that enforces bounded error accumulation via a novel cycle-consistency objective, thereby eliminating the need for teacher-based distillation. Specifically, LIVE first performs a forward rollout from ground-truth frames and then applies a reverse generation process to reconstruct the initial state. The diffusion loss is subsequently computed on the reconstructed terminal state, providing an explicit constraint on long-horizon error propagation. Moreover, we provide an unified view that encompasses different approaches and introduce progressive training curriculum to stabilize training. Experiments demonstrate that LIVE achieves state-of-the-art performance on long-horizon benchmarks, generating stable, high-quality videos far beyond training rollout lengths.
PDF71February 5, 2026