LongVie 2: Multimodaal Bestuurbaar Ultra-Lang Video Wereldmodel
LongVie 2: Multimodal Controllable Ultra-Long Video World Model
December 15, 2025
Auteurs: Jianxiong Gao, Zhaoxi Chen, Xian Liu, Junhao Zhuang, Chengming Xu, Jianfeng Feng, Yu Qiao, Yanwei Fu, Chenyang Si, Ziwei Liu
cs.AI
Samenvatting
Het bouwen van videowereldmodellen op basis van vooraf getrainde videogeneratiesystemen vertegenwoordigt een belangrijke maar uitdagende stap richting algemene spatiotemporele intelligentie. Een wereldmodel moet drie essentiële eigenschappen bezitten: bestuurbaarheid, lange-termijn visuele kwaliteit en temporele consistentie. Hiertoe nemen we een progressieve aanpak - eerst verbeteren we de bestuurbaarheid en breiden we daarna uit naar generatie op lange termijn met hoge kwaliteit. We presenteren LongVie 2, een end-to-end autoregressief raamwerk getraind in drie fasen: (1) Multimodale sturing, die dichte en sparse controle-signalen integreert om impliciete wereldniveau-supervisie te bieden en de bestuurbaarheid te verbeteren; (2) Degradatiebewuste training op het invoerframe, die de kloof tussen training en lange-termijn inferie overbrugt om hoge visuele kwaliteit te behouden; en (3) Geschiedeniscontext-sturing, die contextuele informatie over aangrenzende clips uitlijnt om temporele consistentie te waarborgen. We introduceren verder LongVGenBench, een uitgebreide benchmark bestaande uit 100 hoge-resolutie video's van één minuut die diverse real-world en synthetische omgevingen bestrijken. Uitgebreide experimenten tonen aan dat LongVie 2 state-of-the-art prestaties bereikt in lange-afstandsbestuurbaarheid, temporele coherentie en visuele geloofwaardigheid, en ondersteuning biedt voor continue videogeneratie tot wel vijf minuten lang, wat een significante stap markeert richting verenigde videowereldmodellering.
English
Building video world models upon pretrained video generation systems represents an important yet challenging step toward general spatiotemporal intelligence. A world model should possess three essential properties: controllability, long-term visual quality, and temporal consistency. To this end, we take a progressive approach-first enhancing controllability and then extending toward long-term, high-quality generation. We present LongVie 2, an end-to-end autoregressive framework trained in three stages: (1) Multi-modal guidance, which integrates dense and sparse control signals to provide implicit world-level supervision and improve controllability; (2) Degradation-aware training on the input frame, bridging the gap between training and long-term inference to maintain high visual quality; and (3) History-context guidance, which aligns contextual information across adjacent clips to ensure temporal consistency. We further introduce LongVGenBench, a comprehensive benchmark comprising 100 high-resolution one-minute videos covering diverse real-world and synthetic environments. Extensive experiments demonstrate that LongVie 2 achieves state-of-the-art performance in long-range controllability, temporal coherence, and visual fidelity, and supports continuous video generation lasting up to five minutes, marking a significant step toward unified video world modeling.