ChatPaper.aiChatPaper

LinGen : Vers la génération de vidéos à partir de textes de haute résolution et de courte durée avec une complexité computationnelle linéaire

LinGen: Towards High-Resolution Minute-Length Text-to-Video Generation with Linear Computational Complexity

December 13, 2024
Auteurs: Hongjie Wang, Chih-Yao Ma, Yen-Cheng Liu, Ji Hou, Tao Xu, Jialiang Wang, Felix Juefei-Xu, Yaqiao Luo, Peizhao Zhang, Tingbo Hou, Peter Vajda, Niraj K. Jha, Xiaoliang Dai
cs.AI

Résumé

La génération de vidéos à partir de texte améliore la création de contenu mais est très intensive en termes de calcul : le coût computationnel des Transformateurs de Diffusion (DiTs) croît de manière quadratique en fonction du nombre de pixels. Cela rend la génération de vidéos de courte durée extrêmement coûteuse, limitant la plupart des modèles existants à la création de vidéos d'une durée de seulement 10 à 20 secondes. Nous proposons un cadre de Génération de Vidéos à partir de Texte à Complexité Linéaire (LinGen) dont le coût croît de manière linéaire en fonction du nombre de pixels. Pour la première fois, LinGen permet la génération de vidéos de haute résolution d'une durée d'une minute sur un seul GPU sans compromettre la qualité. Il remplace le bloc dominant computationnellement et de complexité quadratique, l'auto-attention, par un bloc de complexité linéaire appelé MATE, qui se compose d'une branche MA et d'une branche TE. La branche MA cible les corrélations de courte à longue portée, combinant un bloc bidirectionnel Mamba2 avec notre méthode de réarrangement de jetons, le Balayage Majeur Rotatif, et nos jetons de révision développés pour la génération de vidéos longues. La branche TE est un nouveau bloc d'Attention Swin Temporelle qui se concentre sur les corrélations temporelles entre les jetons adjacents et les jetons de portée moyenne. Le bloc MATE résout le problème de préservation de l'adjacence de Mamba et améliore significativement la cohérence des vidéos générées. Les résultats expérimentaux montrent que LinGen surpasse DiT (avec un taux de réussite de 75,6 %) en termes de qualité vidéo avec une réduction allant jusqu'à 15 fois (11,5 fois) des FLOPs (latence). De plus, à la fois les mesures automatiques et l'évaluation humaine démontrent que notre LinGen-4B offre une qualité vidéo comparable aux modèles de pointe (avec un taux de réussite de 50,5 %, 52,1 %, 49,1 % par rapport à Gen-3, LumaLabs et Kling, respectivement). Cela ouvre la voie à la génération de films d'une durée d'une heure et à la génération de vidéos interactives en temps réel. Nous fournissons des résultats de génération de vidéos de 68 secondes et plus d'exemples sur notre site web du projet : https://lineargen.github.io/.
English
Text-to-video generation enhances content creation but is highly computationally intensive: The computational cost of Diffusion Transformers (DiTs) scales quadratically in the number of pixels. This makes minute-length video generation extremely expensive, limiting most existing models to generating videos of only 10-20 seconds length. We propose a Linear-complexity text-to-video Generation (LinGen) framework whose cost scales linearly in the number of pixels. For the first time, LinGen enables high-resolution minute-length video generation on a single GPU without compromising quality. It replaces the computationally-dominant and quadratic-complexity block, self-attention, with a linear-complexity block called MATE, which consists of an MA-branch and a TE-branch. The MA-branch targets short-to-long-range correlations, combining a bidirectional Mamba2 block with our token rearrangement method, Rotary Major Scan, and our review tokens developed for long video generation. The TE-branch is a novel TEmporal Swin Attention block that focuses on temporal correlations between adjacent tokens and medium-range tokens. The MATE block addresses the adjacency preservation issue of Mamba and improves the consistency of generated videos significantly. Experimental results show that LinGen outperforms DiT (with a 75.6% win rate) in video quality with up to 15times (11.5times) FLOPs (latency) reduction. Furthermore, both automatic metrics and human evaluation demonstrate our LinGen-4B yields comparable video quality to state-of-the-art models (with a 50.5%, 52.1%, 49.1% win rate with respect to Gen-3, LumaLabs, and Kling, respectively). This paves the way to hour-length movie generation and real-time interactive video generation. We provide 68s video generation results and more examples in our project website: https://lineargen.github.io/.

Summary

AI-Generated Summary

PDF104December 16, 2024