LongVie 2: Мультимодальная управляемая мировая модель для сверхдлинных видео
LongVie 2: Multimodal Controllable Ultra-Long Video World Model
December 15, 2025
Авторы: Jianxiong Gao, Zhaoxi Chen, Xian Liu, Junhao Zhuang, Chengming Xu, Jianfeng Feng, Yu Qiao, Yanwei Fu, Chenyang Si, Ziwei Liu
cs.AI
Аннотация
Построение видеомировых моделей на основе предобученных систем генерации видео представляет собой важный, но сложный шаг на пути к общему пространственно-временному интеллекту. Мировая модель должна обладать тремя ключевыми свойствами: управляемостью, долгосрочным визуальным качеством и временной согласованностью. Для достижения этой цели мы используем прогрессивный подход — сначала улучшаем управляемость, а затем расширяем возможности в сторону долгосрочной генерации высокого качества. Мы представляем LongVie 2, сквозную авторегрессионную框架, обученную в три этапа: (1) Мультимодальное управление, которое интегрирует плотные и разреженные управляющие сигналы для обеспечения неявного контроля на уровне мира и повышения управляемости; (2) Обучение с учетом деградации на входном кадре, устраняющее разрыв между обучением и долгосрочным выводом для сохранения высокого визуального качества; и (3) Управление на основе исторического контекста, которое согласует контекстную информацию между смежными клипами для обеспечения временной согласованности. Мы также представляем LongVGenBench — комплексный бенчмарк, содержащий 100 одноминутных видео высокого разрешения, охватывающих разнообразные реальные и синтетические среды. Многочисленные эксперименты демонстрируют, что LongVie 2 достигает передовых результатов в области долгосрочной управляемости, временной согласованности и визуального правдоподобия, а также поддерживает непрерывную генерацию видео длительностью до пяти минут, что знаменует значительный шаг к унифицированному моделированию видеомиров.
English
Building video world models upon pretrained video generation systems represents an important yet challenging step toward general spatiotemporal intelligence. A world model should possess three essential properties: controllability, long-term visual quality, and temporal consistency. To this end, we take a progressive approach-first enhancing controllability and then extending toward long-term, high-quality generation. We present LongVie 2, an end-to-end autoregressive framework trained in three stages: (1) Multi-modal guidance, which integrates dense and sparse control signals to provide implicit world-level supervision and improve controllability; (2) Degradation-aware training on the input frame, bridging the gap between training and long-term inference to maintain high visual quality; and (3) History-context guidance, which aligns contextual information across adjacent clips to ensure temporal consistency. We further introduce LongVGenBench, a comprehensive benchmark comprising 100 high-resolution one-minute videos covering diverse real-world and synthetic environments. Extensive experiments demonstrate that LongVie 2 achieves state-of-the-art performance in long-range controllability, temporal coherence, and visual fidelity, and supports continuous video generation lasting up to five minutes, marking a significant step toward unified video world modeling.