LongVie: Geração Controlável de Vídeos Ultra-Longos com Orientação Multimodal
LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation
August 5, 2025
Autores: Jianxiong Gao, Zhaoxi Chen, Xian Liu, Jianfeng Feng, Chenyang Si, Yanwei Fu, Yu Qiao, Ziwei Liu
cs.AI
Resumo
A geração controlada de vídeos ultra-longos é uma tarefa fundamental, porém desafiadora. Embora os métodos existentes sejam eficazes para clipes curtos, eles enfrentam dificuldades ao escalonar devido a problemas como inconsistência temporal e degradação visual. Neste artigo, inicialmente investigamos e identificamos três fatores-chave: inicialização separada de ruído, normalização independente de sinais de controle e as limitações da orientação de modalidade única. Para abordar esses problemas, propomos o LongVie, uma estrutura autoregressiva de ponta a ponta para a geração controlada de vídeos longos. O LongVie introduz dois designs principais para garantir a consistência temporal: 1) uma estratégia unificada de inicialização de ruído que mantém a geração consistente entre os clipes, e 2) normalização global de sinais de controle que impõe alinhamento no espaço de controle ao longo de todo o vídeo. Para mitigar a degradação visual, o LongVie emprega 3) uma estrutura de controle multimodal que integra tanto sinais de controle densos (por exemplo, mapas de profundidade) quanto esparsos (por exemplo, pontos-chave), complementada por 4) uma estratégia de treinamento consciente da degradação que equilibra adaptativamente as contribuições das modalidades ao longo do tempo para preservar a qualidade visual. Também introduzimos o LongVGenBench, um benchmark abrangente composto por 100 vídeos de alta resolução que abrangem diversos ambientes reais e sintéticos, cada um com duração superior a um minuto. Experimentos extensivos mostram que o LongVie alcança desempenho de ponta em controlabilidade de longo alcance, consistência e qualidade.
English
Controllable ultra-long video generation is a fundamental yet challenging
task. Although existing methods are effective for short clips, they struggle to
scale due to issues such as temporal inconsistency and visual degradation. In
this paper, we initially investigate and identify three key factors: separate
noise initialization, independent control signal normalization, and the
limitations of single-modality guidance. To address these issues, we propose
LongVie, an end-to-end autoregressive framework for controllable long video
generation. LongVie introduces two core designs to ensure temporal consistency:
1) a unified noise initialization strategy that maintains consistent generation
across clips, and 2) global control signal normalization that enforces
alignment in the control space throughout the entire video. To mitigate visual
degradation, LongVie employs 3) a multi-modal control framework that integrates
both dense (e.g., depth maps) and sparse (e.g., keypoints) control signals,
complemented by 4) a degradation-aware training strategy that adaptively
balances modality contributions over time to preserve visual quality. We also
introduce LongVGenBench, a comprehensive benchmark consisting of 100
high-resolution videos spanning diverse real-world and synthetic environments,
each lasting over one minute. Extensive experiments show that LongVie achieves
state-of-the-art performance in long-range controllability, consistency, and
quality.