ChatPaper.aiChatPaper

LongVie 2: Modello Mondiale per Video Ultra-Lunghi Multimodale e Controllabile

LongVie 2: Multimodal Controllable Ultra-Long Video World Model

December 15, 2025
Autori: Jianxiong Gao, Zhaoxi Chen, Xian Liu, Junhao Zhuang, Chengming Xu, Jianfeng Feng, Yu Qiao, Yanwei Fu, Chenyang Si, Ziwei Liu
cs.AI

Abstract

La costruzione di modelli di mondo video su sistemi di generazione video pre-addestrati rappresenta un passo importante ma impegnativo verso un’intelligenza spaziotemporale generale. Un modello di mondo dovrebbe possedere tre proprietà essenziali: controllabilità, qualità visiva a lungo termine e coerenza temporale. A tal fine, adottiamo un approccio progressivo, migliorando prima la controllabilità e poi estendendoci verso una generazione di alta qualità e a lungo termine. Presentiamo LongVie 2, un framework autoregressivo end-to-end addestrato in tre fasi: (1) Guida multi-modale, che integra segnali di controllo densi e sparsi per fornire una supervisione implicita a livello di mondo e migliorare la controllabilità; (2) Addestramento consapevole del degrado sul frame di input, colmando il divario tra addestramento e inferenza a lungo termine per mantenere un’alta qualità visiva; e (3) Guida contestuale storica, che allinea le informazioni contestuali tra clip adiacenti per garantire la coerenza temporale. Introduciamo inoltre LongVGenBench, un benchmark completo che comprende 100 video ad alta risoluzione della durata di un minuto, coprendo ambienti reali e sintetici diversificati. Esperimenti estensivi dimostrano che LongVie 2 raggiunge prestazioni all’avanguardia nella controllabilità a lungo raggio, nella coerenza temporale e nella fedeltà visiva, e supporta una generazione video continua della durata fino a cinque minuti, segnando un passo significativo verso una modellazione unificata del mondo video.
English
Building video world models upon pretrained video generation systems represents an important yet challenging step toward general spatiotemporal intelligence. A world model should possess three essential properties: controllability, long-term visual quality, and temporal consistency. To this end, we take a progressive approach-first enhancing controllability and then extending toward long-term, high-quality generation. We present LongVie 2, an end-to-end autoregressive framework trained in three stages: (1) Multi-modal guidance, which integrates dense and sparse control signals to provide implicit world-level supervision and improve controllability; (2) Degradation-aware training on the input frame, bridging the gap between training and long-term inference to maintain high visual quality; and (3) History-context guidance, which aligns contextual information across adjacent clips to ensure temporal consistency. We further introduce LongVGenBench, a comprehensive benchmark comprising 100 high-resolution one-minute videos covering diverse real-world and synthetic environments. Extensive experiments demonstrate that LongVie 2 achieves state-of-the-art performance in long-range controllability, temporal coherence, and visual fidelity, and supports continuous video generation lasting up to five minutes, marking a significant step toward unified video world modeling.
PDF623December 19, 2025