ChatPaper.aiChatPaper

LinGen: Auf dem Weg zur Generierung von Text-zu-Video mit hoher Auflösung und Minutenlänge bei linearer Rechenkomplexität

LinGen: Towards High-Resolution Minute-Length Text-to-Video Generation with Linear Computational Complexity

December 13, 2024
Autoren: Hongjie Wang, Chih-Yao Ma, Yen-Cheng Liu, Ji Hou, Tao Xu, Jialiang Wang, Felix Juefei-Xu, Yaqiao Luo, Peizhao Zhang, Tingbo Hou, Peter Vajda, Niraj K. Jha, Xiaoliang Dai
cs.AI

Zusammenfassung

Die Generierung von Text-zu-Video verbessert die Inhaltsentwicklung, ist jedoch äußerst rechenintensiv: Die Rechenkosten von Diffusions-Transformatoren (DiTs) steigen quadratisch mit der Anzahl der Pixel. Dies macht die Generierung von Videos von geringer Länge extrem teuer und beschränkt die meisten bestehenden Modelle auf die Erzeugung von Videos von nur 10-20 Sekunden Länge. Wir schlagen ein Linear-komplexes Text-zu-Video-Generierungs (LinGen) Framework vor, dessen Kosten linear mit der Anzahl der Pixel skalieren. LinGen ermöglicht erstmals die Generierung von hochauflösenden Videos von geringer Länge auf einer einzelnen GPU, ohne die Qualität zu beeinträchtigen. Es ersetzt den rechenintensiven und quadratisch-komplexen Block der Selbst-Aufmerksamkeit durch einen linear-komplexen Block namens MATE, der aus einem MA-Zweig und einem TE-Zweig besteht. Der MA-Zweig zielt auf kurz- bis langreichweitige Korrelationen ab, indem er einen bidirektionalen Mamba2-Block mit unserer Token-Umordnungsmethode, Rotary Major Scan, und unseren für die Generierung langer Videos entwickelten Überprüfungstoken kombiniert. Der TE-Zweig ist ein neuartiger TEmporal Swin Attention-Block, der sich auf zeitliche Korrelationen zwischen benachbarten Tokens und mittelreichweitigen Tokens konzentriert. Der MATE-Block behebt das Problem der Adjazenz-Erhaltung von Mamba und verbessert die Konsistenz der generierten Videos erheblich. Experimentelle Ergebnisse zeigen, dass LinGen die DiT in der Videoqualität übertrifft (mit einer Gewinnrate von 75,6%) und gleichzeitig die FLOPs (Latenz) um bis zu 15-mal (11,5-mal) reduziert. Darüber hinaus zeigen sowohl automatische Metriken als auch eine menschliche Bewertung, dass unser LinGen-4B eine vergleichbare Videoqualität zu führenden Modellen bietet (mit einer Gewinnrate von 50,5%, 52,1%, 49,1% im Vergleich zu Gen-3, LumaLabs und Kling). Dies ebnet den Weg für die Generierung von Filmen von Stundenlänge und die Echtzeit-Interaktive-Video-Generierung. Wir stellen Ergebnisse zur 68-Sekunden-Videoerzeugung und weitere Beispiele auf unserer Projektwebsite zur Verfügung: https://lineargen.github.io/.
English
Text-to-video generation enhances content creation but is highly computationally intensive: The computational cost of Diffusion Transformers (DiTs) scales quadratically in the number of pixels. This makes minute-length video generation extremely expensive, limiting most existing models to generating videos of only 10-20 seconds length. We propose a Linear-complexity text-to-video Generation (LinGen) framework whose cost scales linearly in the number of pixels. For the first time, LinGen enables high-resolution minute-length video generation on a single GPU without compromising quality. It replaces the computationally-dominant and quadratic-complexity block, self-attention, with a linear-complexity block called MATE, which consists of an MA-branch and a TE-branch. The MA-branch targets short-to-long-range correlations, combining a bidirectional Mamba2 block with our token rearrangement method, Rotary Major Scan, and our review tokens developed for long video generation. The TE-branch is a novel TEmporal Swin Attention block that focuses on temporal correlations between adjacent tokens and medium-range tokens. The MATE block addresses the adjacency preservation issue of Mamba and improves the consistency of generated videos significantly. Experimental results show that LinGen outperforms DiT (with a 75.6% win rate) in video quality with up to 15times (11.5times) FLOPs (latency) reduction. Furthermore, both automatic metrics and human evaluation demonstrate our LinGen-4B yields comparable video quality to state-of-the-art models (with a 50.5%, 52.1%, 49.1% win rate with respect to Gen-3, LumaLabs, and Kling, respectively). This paves the way to hour-length movie generation and real-time interactive video generation. We provide 68s video generation results and more examples in our project website: https://lineargen.github.io/.

Summary

AI-Generated Summary

PDF104December 16, 2024