LongVie: Generación Controllable de Videos Ultra-Largos Guiada por Multimodalidad
LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation
August 5, 2025
Autores: Jianxiong Gao, Zhaoxi Chen, Xian Liu, Jianfeng Feng, Chenyang Si, Yanwei Fu, Yu Qiao, Ziwei Liu
cs.AI
Resumen
La generación controlable de videos ultra largos es una tarea fundamental pero desafiante. Aunque los métodos existentes son efectivos para clips cortos, tienen dificultades para escalar debido a problemas como la inconsistencia temporal y la degradación visual. En este artículo, inicialmente investigamos e identificamos tres factores clave: la inicialización separada del ruido, la normalización independiente de las señales de control y las limitaciones de la guía de una sola modalidad. Para abordar estos problemas, proponemos LongVie, un marco autoregresivo de extremo a extremo para la generación controlable de videos largos. LongVie introduce dos diseños principales para garantizar la consistencia temporal: 1) una estrategia unificada de inicialización del ruido que mantiene una generación consistente entre clips, y 2) una normalización global de las señales de control que asegura la alineación en el espacio de control a lo largo de todo el video. Para mitigar la degradación visual, LongVie emplea 3) un marco de control multimodal que integra tanto señales de control densas (por ejemplo, mapas de profundidad) como dispersas (por ejemplo, puntos clave), complementado por 4) una estrategia de entrenamiento consciente de la degradación que equilibra adaptativamente las contribuciones de las modalidades a lo largo del tiempo para preservar la calidad visual. También presentamos LongVGenBench, un benchmark integral que consta de 100 videos de alta resolución que abarcan diversos entornos del mundo real y sintéticos, cada uno con una duración de más de un minuto. Experimentos extensos muestran que LongVie alcanza un rendimiento de vanguardia en controlabilidad a largo plazo, consistencia y calidad.
English
Controllable ultra-long video generation is a fundamental yet challenging
task. Although existing methods are effective for short clips, they struggle to
scale due to issues such as temporal inconsistency and visual degradation. In
this paper, we initially investigate and identify three key factors: separate
noise initialization, independent control signal normalization, and the
limitations of single-modality guidance. To address these issues, we propose
LongVie, an end-to-end autoregressive framework for controllable long video
generation. LongVie introduces two core designs to ensure temporal consistency:
1) a unified noise initialization strategy that maintains consistent generation
across clips, and 2) global control signal normalization that enforces
alignment in the control space throughout the entire video. To mitigate visual
degradation, LongVie employs 3) a multi-modal control framework that integrates
both dense (e.g., depth maps) and sparse (e.g., keypoints) control signals,
complemented by 4) a degradation-aware training strategy that adaptively
balances modality contributions over time to preserve visual quality. We also
introduce LongVGenBench, a comprehensive benchmark consisting of 100
high-resolution videos spanning diverse real-world and synthetic environments,
each lasting over one minute. Extensive experiments show that LongVie achieves
state-of-the-art performance in long-range controllability, consistency, and
quality.