LongVie 2: 멀티모달 제어 가능 초장기 비디오 세계 모델
LongVie 2: Multimodal Controllable Ultra-Long Video World Model
December 15, 2025
저자: Jianxiong Gao, Zhaoxi Chen, Xian Liu, Junhao Zhuang, Chengming Xu, Jianfeng Feng, Yu Qiao, Yanwei Fu, Chenyang Si, Ziwei Liu
cs.AI
초록
사전 훈련된 비디오 생성 시스템을 기반으로 한 비디오 세계 모델 구축은 일반적인 시공간 인텔리전스로 나아가는 중요한 동시에 어려운 단계를 나타냅니다. 세계 모델은 세 가지 필수 속성, 즉 제어 가능성, 장기간 시각적 품질, 그리고 시간적 일관성을 갖추어야 합니다. 이를 위해 우리는 점진적 접근법(먼저 제어 가능성을 향상시킨 후 장기간 고품질 생성으로 확장)을 취합니다. 우리는 세 단계로 훈련된 종단 간 자기회귀 프레임워크인 LongVie 2를 제시합니다: (1) **다중 모달 지도**: 밀집 및 희소 제어 신호를 통합하여 암묵적인 세계 수준의 지도를 제공하고 제어 가능성을 향상시킵니다. (2) **입력 프레임에 대한 저하 인식 훈련**: 훈련과 장기 추론 간의 차이를 줄여 높은 시각적 품질을 유지합니다. (3) **히스토리 컨텍스트 지도**: 인접 클립 간의 맥락 정보를 정렬하여 시간적 일관성을 보장합니다. 우리는 더 나아가 다양한 실제 및 합성 환경을 포함하는 100개의 고해상도 1분 길이 비디오로 구성된 포괄적인 벤치마크인 LongVGenBench를 소개합니다. 광범위한 실험을 통해 LongVie 2가 장거리 제어 가능성, 시간적 일관성, 시각적 정확도에서 최첨단 성능을 달성하며 최대 5분 동안 지속되는 연속 비디오 생성을 지원함을 입증하여, 통합 비디오 세계 모델링을 향한 중요한 진전을 이루었습니다.
English
Building video world models upon pretrained video generation systems represents an important yet challenging step toward general spatiotemporal intelligence. A world model should possess three essential properties: controllability, long-term visual quality, and temporal consistency. To this end, we take a progressive approach-first enhancing controllability and then extending toward long-term, high-quality generation. We present LongVie 2, an end-to-end autoregressive framework trained in three stages: (1) Multi-modal guidance, which integrates dense and sparse control signals to provide implicit world-level supervision and improve controllability; (2) Degradation-aware training on the input frame, bridging the gap between training and long-term inference to maintain high visual quality; and (3) History-context guidance, which aligns contextual information across adjacent clips to ensure temporal consistency. We further introduce LongVGenBench, a comprehensive benchmark comprising 100 high-resolution one-minute videos covering diverse real-world and synthetic environments. Extensive experiments demonstrate that LongVie 2 achieves state-of-the-art performance in long-range controllability, temporal coherence, and visual fidelity, and supports continuous video generation lasting up to five minutes, marking a significant step toward unified video world modeling.