ChatPaper.aiChatPaper

LinGen: Naar Hoge-Resolutie Tekst-naar-Video Generatie van Minuutlange Video's met Lineaire Rekenkundige Complexiteit

LinGen: Towards High-Resolution Minute-Length Text-to-Video Generation with Linear Computational Complexity

December 13, 2024
Auteurs: Hongjie Wang, Chih-Yao Ma, Yen-Cheng Liu, Ji Hou, Tao Xu, Jialiang Wang, Felix Juefei-Xu, Yaqiao Luo, Peizhao Zhang, Tingbo Hou, Peter Vajda, Niraj K. Jha, Xiaoliang Dai
cs.AI

Samenvatting

Het genereren van tekst-naar-video verbetert de inhoudcreatie, maar is zeer rekenintensief: de computationele kosten van Diffusion Transformers (DiTs) schalen kwadratisch met het aantal pixels. Dit maakt het genereren van video's van minuutlengte extreem duur, waardoor de meeste bestaande modellen beperkt zijn tot het genereren van video's van slechts 10-20 seconden lengte. Wij stellen een Lineaire-complexiteit tekst-naar-video Generatie (LinGen) framework voor waarvan de kosten lineair schalen met het aantal pixels. Voor het eerst maakt LinGen hoogwaardige minuutlange video-generatie mogelijk op een enkele GPU zonder concessies te doen aan de kwaliteit. Het vervangt het computationeel dominante en kwadratische-complexiteit blok, zelfaandacht, door een lineaire-complexiteit blok genaamd MATE, dat bestaat uit een MA-tak en een TE-tak. De MA-tak richt zich op korte- tot langeafstandsverbanden, door een bidirectioneel Mamba2 blok te combineren met onze token-herschikking methode, Rotary Major Scan, en onze review tokens ontwikkeld voor lange video-generatie. De TE-tak is een nieuw TEmporal Swin Aandacht blok dat zich richt op temporele verbanden tussen aangrenzende tokens en tokens op middellange afstand. Het MATE blok pakt het probleem van aangrenzend behoud van Mamba aan en verbetert de consistentie van gegenereerde video's aanzienlijk. Experimentele resultaten tonen aan dat LinGen DiT overtreft (met een winstpercentage van 75,6%) in videokwaliteit met een vermindering van maximaal 15 keer (11,5 keer) FLOPs (latentie). Bovendien tonen zowel automatische metrieken als menselijke evaluatie aan dat onze LinGen-4B vergelijkbare videokwaliteit oplevert als state-of-the-art modellen (met respectievelijk een winstpercentage van 50,5%, 52,1%, 49,1% ten opzichte van Gen-3, LumaLabs en Kling). Dit opent de weg naar het genereren van speelfilms van uur-lengte en real-time interactieve video-generatie. We bieden 68s video-generatieresultaten en meer voorbeelden op onze projectwebsite: https://lineargen.github.io/.
English
Text-to-video generation enhances content creation but is highly computationally intensive: The computational cost of Diffusion Transformers (DiTs) scales quadratically in the number of pixels. This makes minute-length video generation extremely expensive, limiting most existing models to generating videos of only 10-20 seconds length. We propose a Linear-complexity text-to-video Generation (LinGen) framework whose cost scales linearly in the number of pixels. For the first time, LinGen enables high-resolution minute-length video generation on a single GPU without compromising quality. It replaces the computationally-dominant and quadratic-complexity block, self-attention, with a linear-complexity block called MATE, which consists of an MA-branch and a TE-branch. The MA-branch targets short-to-long-range correlations, combining a bidirectional Mamba2 block with our token rearrangement method, Rotary Major Scan, and our review tokens developed for long video generation. The TE-branch is a novel TEmporal Swin Attention block that focuses on temporal correlations between adjacent tokens and medium-range tokens. The MATE block addresses the adjacency preservation issue of Mamba and improves the consistency of generated videos significantly. Experimental results show that LinGen outperforms DiT (with a 75.6% win rate) in video quality with up to 15times (11.5times) FLOPs (latency) reduction. Furthermore, both automatic metrics and human evaluation demonstrate our LinGen-4B yields comparable video quality to state-of-the-art models (with a 50.5%, 52.1%, 49.1% win rate with respect to Gen-3, LumaLabs, and Kling, respectively). This paves the way to hour-length movie generation and real-time interactive video generation. We provide 68s video generation results and more examples in our project website: https://lineargen.github.io/.
PDF104December 16, 2024