ChatPaper.aiChatPaper

LongVie 2 : Modèle mondial de vidéo ultra-longue multimodal et contrôlable

LongVie 2: Multimodal Controllable Ultra-Long Video World Model

December 15, 2025
papers.authors: Jianxiong Gao, Zhaoxi Chen, Xian Liu, Junhao Zhuang, Chengming Xu, Jianfeng Feng, Yu Qiao, Yanwei Fu, Chenyang Si, Ziwei Liu
cs.AI

papers.abstract

La construction de modèles de monde vidéo sur la base de systèmes de génération vidéo pré-entraînés représente une étape importante mais difficile vers une intelligence spatiotemporelle générale. Un modèle de monde doit posséder trois propriétés essentielles : la contrôlabilité, la qualité visuelle à long terme et la cohérence temporelle. Pour cela, nous adoptons une approche progressive - en améliorant d'abord la contrôlabilité puis en nous étendant vers une génération à long terme et de haute qualité. Nous présentons LongVie 2, un cadre autorégressif de bout en bout entraîné en trois étapes : (1) Le guidage multimodal, qui intègre des signaux de contrôle denses et épars pour fournir une supervision implicite au niveau du monde et améliorer la contrôlabilité ; (2) L'entraînement tenant compte de la dégradation sur l'image d'entrée, comblant l'écart entre l'entraînement et l'inférence à long terme pour maintenir une haute qualité visuelle ; et (3) Le guidage par contexte historique, qui aligne les informations contextuelles entre clips adjacents pour assurer la cohérence temporelle. Nous introduisons en outre LongVGenBench, un benchmark complet comprenant 100 vidéos d'une minute en haute résolution couvrant divers environnements réels et synthétiques. Des expériences approfondies démontrent que LongVie 2 atteint des performances de pointe en matière de contrôlabilité à long terme, de cohérence temporelle et de fidélité visuelle, et prend en charge une génération vidéo continue durant jusqu'à cinq minutes, marquant une avancée significative vers une modélisation unifiée du monde vidéo.
English
Building video world models upon pretrained video generation systems represents an important yet challenging step toward general spatiotemporal intelligence. A world model should possess three essential properties: controllability, long-term visual quality, and temporal consistency. To this end, we take a progressive approach-first enhancing controllability and then extending toward long-term, high-quality generation. We present LongVie 2, an end-to-end autoregressive framework trained in three stages: (1) Multi-modal guidance, which integrates dense and sparse control signals to provide implicit world-level supervision and improve controllability; (2) Degradation-aware training on the input frame, bridging the gap between training and long-term inference to maintain high visual quality; and (3) History-context guidance, which aligns contextual information across adjacent clips to ensure temporal consistency. We further introduce LongVGenBench, a comprehensive benchmark comprising 100 high-resolution one-minute videos covering diverse real-world and synthetic environments. Extensive experiments demonstrate that LongVie 2 achieves state-of-the-art performance in long-range controllability, temporal coherence, and visual fidelity, and supports continuous video generation lasting up to five minutes, marking a significant step toward unified video world modeling.
PDF572December 17, 2025