ChatPaper.aiChatPaper

LongVie 2: Modelo Mundial de Video Ultra-Largo Controlable Multimodal

LongVie 2: Multimodal Controllable Ultra-Long Video World Model

December 15, 2025
Autores: Jianxiong Gao, Zhaoxi Chen, Xian Liu, Junhao Zhuang, Chengming Xu, Jianfeng Feng, Yu Qiao, Yanwei Fu, Chenyang Si, Ziwei Liu
cs.AI

Resumen

La construcción de modelos de mundo de vídeo sobre sistemas preentrenados de generación de vídeo representa un paso importante pero desafiante hacia la inteligencia espacio-temporal general. Un modelo de mundo debe poseer tres propiedades esenciales: controlabilidad, calidad visual a largo plazo y consistencia temporal. Con este fin, adoptamos un enfoque progresivo: primero mejoramos la controlabilidad y luego nos extendemos hacia la generación a largo plazo y de alta calidad. Presentamos LongVie 2, un marco autoregresivo de extremo a extremo entrenado en tres etapas: (1) Guía multimodal, que integra señales de control densas y dispersas para proporcionar supervisión implícita a nivel de mundo y mejorar la controlabilidad; (2) Entrenamiento consciente de la degradación en el fotograma de entrada, cerrando la brecha entre el entrenamiento y la inferencia a largo plazo para mantener una alta calidad visual; y (3) Guía de contexto histórico, que alinea la información contextual entre clips adyacentes para garantizar la consistencia temporal. Además, presentamos LongVGenBench, un benchmark integral que comprende 100 vídeos de un minuto en alta resolución que cubren diversos entornos reales y sintéticos. Experimentos exhaustivos demuestran que LongVie 2 logra un rendimiento de vanguardia en controlabilidad de largo alcance, coherencia temporal y fidelidad visual, y soporta generación continua de vídeo con una duración de hasta cinco minutos, marcando un paso significativo hacia el modelado unificado de mundos de vídeo.
English
Building video world models upon pretrained video generation systems represents an important yet challenging step toward general spatiotemporal intelligence. A world model should possess three essential properties: controllability, long-term visual quality, and temporal consistency. To this end, we take a progressive approach-first enhancing controllability and then extending toward long-term, high-quality generation. We present LongVie 2, an end-to-end autoregressive framework trained in three stages: (1) Multi-modal guidance, which integrates dense and sparse control signals to provide implicit world-level supervision and improve controllability; (2) Degradation-aware training on the input frame, bridging the gap between training and long-term inference to maintain high visual quality; and (3) History-context guidance, which aligns contextual information across adjacent clips to ensure temporal consistency. We further introduce LongVGenBench, a comprehensive benchmark comprising 100 high-resolution one-minute videos covering diverse real-world and synthetic environments. Extensive experiments demonstrate that LongVie 2 achieves state-of-the-art performance in long-range controllability, temporal coherence, and visual fidelity, and supports continuous video generation lasting up to five minutes, marking a significant step toward unified video world modeling.
PDF572December 17, 2025