LongVie 2: Modelo Mundial de Vídeo Ultra-Longo Controlável Multimodal
LongVie 2: Multimodal Controllable Ultra-Long Video World Model
December 15, 2025
Autores: Jianxiong Gao, Zhaoxi Chen, Xian Liu, Junhao Zhuang, Chengming Xu, Jianfeng Feng, Yu Qiao, Yanwei Fu, Chenyang Si, Ziwei Liu
cs.AI
Resumo
A construção de modelos de mundo em vídeo sobre sistemas pré-treinados de geração de vídeo representa um passo importante, porém desafiador, rumo à inteligência espaço-temporal geral. Um modelo de mundo deve possuir três propriedades essenciais: controlabilidade, qualidade visual de longo prazo e consistência temporal. Para isso, adotamos uma abordagem progressiva - primeiro aprimorando a controlabilidade e depois estendendo para a geração de longo prazo e alta qualidade. Apresentamos o LongVie 2, um framework autoregressivo de ponta a ponta treinado em três estágios: (1) Orientação multimodal, que integra sinais de controle densos e esparsos para fornecer supervisão implícita em nível de mundo e melhorar a controlabilidade; (2) Treinamento com consciência da degradação no frame de entrada, preenchendo a lacuna entre o treinamento e a inferência de longo prazo para manter alta qualidade visual; e (3) Orientação por contexto histórico, que alinha informações contextuais entre clipes adjacentes para garantir consistência temporal. Introduzimos ainda o LongVGenBench, um benchmark abrangente composto por 100 vídeos de um minuto em alta resolução, abrangendo diversos ambientes do mundo real e sintéticos. Experimentos extensivos demonstram que o LongVie 2 alcança desempenho de ponta em controlabilidade de longo alcance, coerência temporal e fidelidade visual, e suporta geração contínua de vídeo com duração de até cinco minutos, marcando um passo significativo em direção à modelagem unificada de mundos em vídeo.
English
Building video world models upon pretrained video generation systems represents an important yet challenging step toward general spatiotemporal intelligence. A world model should possess three essential properties: controllability, long-term visual quality, and temporal consistency. To this end, we take a progressive approach-first enhancing controllability and then extending toward long-term, high-quality generation. We present LongVie 2, an end-to-end autoregressive framework trained in three stages: (1) Multi-modal guidance, which integrates dense and sparse control signals to provide implicit world-level supervision and improve controllability; (2) Degradation-aware training on the input frame, bridging the gap between training and long-term inference to maintain high visual quality; and (3) History-context guidance, which aligns contextual information across adjacent clips to ensure temporal consistency. We further introduce LongVGenBench, a comprehensive benchmark comprising 100 high-resolution one-minute videos covering diverse real-world and synthetic environments. Extensive experiments demonstrate that LongVie 2 achieves state-of-the-art performance in long-range controllability, temporal coherence, and visual fidelity, and supports continuous video generation lasting up to five minutes, marking a significant step toward unified video world modeling.