ChatPaper.aiChatPaper

LongVie : Génération contrôlée de vidéos ultra-longues guidée par multimodalité

LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation

August 5, 2025
papers.authors: Jianxiong Gao, Zhaoxi Chen, Xian Liu, Jianfeng Feng, Chenyang Si, Yanwei Fu, Yu Qiao, Ziwei Liu
cs.AI

papers.abstract

La génération contrôlée de vidéos ultra-longues est une tâche fondamentale mais complexe. Bien que les méthodes existantes soient efficaces pour des clips courts, elles peinent à s'adapter à des durées plus longues en raison de problèmes tels que l'incohérence temporelle et la dégradation visuelle. Dans cet article, nous étudions et identifions initialement trois facteurs clés : l'initialisation séparée du bruit, la normalisation indépendante des signaux de contrôle, et les limitations des guidages unimodaux. Pour résoudre ces problèmes, nous proposons LongVie, un framework autoregressif de bout en bout pour la génération contrôlée de vidéos longues. LongVie introduit deux conceptions principales pour assurer la cohérence temporelle : 1) une stratégie unifiée d'initialisation du bruit qui maintient une génération cohérente entre les clips, et 2) une normalisation globale des signaux de contrôle qui garantit un alignement dans l'espace de contrôle tout au long de la vidéo. Pour atténuer la dégradation visuelle, LongVie utilise 3) un framework de contrôle multimodal qui intègre à la fois des signaux de contrôle denses (par exemple, des cartes de profondeur) et épars (par exemple, des points clés), complété par 4) une stratégie d'entraînement sensible à la dégradation qui équilibre de manière adaptative les contributions des modalités au fil du temps pour préserver la qualité visuelle. Nous introduisons également LongVGenBench, un benchmark complet composé de 100 vidéos haute résolution couvrant divers environnements réels et synthétiques, chacune durant plus d'une minute. Des expériences approfondies montrent que LongVie atteint des performances de pointe en termes de contrôlabilité à long terme, de cohérence et de qualité.
English
Controllable ultra-long video generation is a fundamental yet challenging task. Although existing methods are effective for short clips, they struggle to scale due to issues such as temporal inconsistency and visual degradation. In this paper, we initially investigate and identify three key factors: separate noise initialization, independent control signal normalization, and the limitations of single-modality guidance. To address these issues, we propose LongVie, an end-to-end autoregressive framework for controllable long video generation. LongVie introduces two core designs to ensure temporal consistency: 1) a unified noise initialization strategy that maintains consistent generation across clips, and 2) global control signal normalization that enforces alignment in the control space throughout the entire video. To mitigate visual degradation, LongVie employs 3) a multi-modal control framework that integrates both dense (e.g., depth maps) and sparse (e.g., keypoints) control signals, complemented by 4) a degradation-aware training strategy that adaptively balances modality contributions over time to preserve visual quality. We also introduce LongVGenBench, a comprehensive benchmark consisting of 100 high-resolution videos spanning diverse real-world and synthetic environments, each lasting over one minute. Extensive experiments show that LongVie achieves state-of-the-art performance in long-range controllability, consistency, and quality.
PDF493August 6, 2025