ChatPaper.aiChatPaper

LinGen: Hacia la Generación de Video a partir de Texto de Alta Resolución de Duración Minutaria con Complejidad Computacional Lineal

LinGen: Towards High-Resolution Minute-Length Text-to-Video Generation with Linear Computational Complexity

December 13, 2024
Autores: Hongjie Wang, Chih-Yao Ma, Yen-Cheng Liu, Ji Hou, Tao Xu, Jialiang Wang, Felix Juefei-Xu, Yaqiao Luo, Peizhao Zhang, Tingbo Hou, Peter Vajda, Niraj K. Jha, Xiaoliang Dai
cs.AI

Resumen

La generación de video a partir de texto mejora la creación de contenido pero es altamente intensiva en cómputo: el costo computacional de los Transformadores de Difusión (DiTs) escala cuadráticamente con el número de píxeles. Esto hace que la generación de videos de duración de minutos sea extremadamente costosa, limitando a la mayoría de los modelos existentes a generar videos de solo 10-20 segundos de duración. Proponemos un marco de Generación de Video Lineal (LinGen) cuyo costo escala linealmente con el número de píxeles. Por primera vez, LinGen permite la generación de videos de alta resolución de duración de minutos en una sola GPU sin comprometer la calidad. Reemplaza el bloque dominante computacionalmente y de complejidad cuadrática, la autoatención, con un bloque de complejidad lineal llamado MATE, que consta de una rama MA y una rama TE. La rama MA se enfoca en correlaciones de corto a largo alcance, combinando un bloque bidireccional Mamba2 con nuestro método de reorganización de tokens, Escaneo Mayor Rotativo, y nuestros tokens de revisión desarrollados para generación de videos largos. La rama TE es un bloque de Atención Swin Temporal novedoso que se centra en correlaciones temporales entre tokens adyacentes y tokens de rango medio. El bloque MATE aborda el problema de preservación de la adyacencia de Mamba y mejora significativamente la consistencia de los videos generados. Los resultados experimentales muestran que LinGen supera a DiT (con una tasa de victoria del 75.6%) en calidad de video con una reducción de hasta 15 veces (11.5 veces) en FLOPs (latencia). Además, tanto las métricas automáticas como la evaluación humana demuestran que nuestro LinGen-4B produce una calidad de video comparable a los modelos de vanguardia (con una tasa de victoria del 50.5%, 52.1%, 49.1% con respecto a Gen-3, LumaLabs y Kling, respectivamente). Esto allana el camino para la generación de películas de duración de horas y la generación de video interactiva en tiempo real. Proporcionamos resultados de generación de video de 68 segundos y más ejemplos en nuestro sitio web del proyecto: https://lineargen.github.io/.
English
Text-to-video generation enhances content creation but is highly computationally intensive: The computational cost of Diffusion Transformers (DiTs) scales quadratically in the number of pixels. This makes minute-length video generation extremely expensive, limiting most existing models to generating videos of only 10-20 seconds length. We propose a Linear-complexity text-to-video Generation (LinGen) framework whose cost scales linearly in the number of pixels. For the first time, LinGen enables high-resolution minute-length video generation on a single GPU without compromising quality. It replaces the computationally-dominant and quadratic-complexity block, self-attention, with a linear-complexity block called MATE, which consists of an MA-branch and a TE-branch. The MA-branch targets short-to-long-range correlations, combining a bidirectional Mamba2 block with our token rearrangement method, Rotary Major Scan, and our review tokens developed for long video generation. The TE-branch is a novel TEmporal Swin Attention block that focuses on temporal correlations between adjacent tokens and medium-range tokens. The MATE block addresses the adjacency preservation issue of Mamba and improves the consistency of generated videos significantly. Experimental results show that LinGen outperforms DiT (with a 75.6% win rate) in video quality with up to 15times (11.5times) FLOPs (latency) reduction. Furthermore, both automatic metrics and human evaluation demonstrate our LinGen-4B yields comparable video quality to state-of-the-art models (with a 50.5%, 52.1%, 49.1% win rate with respect to Gen-3, LumaLabs, and Kling, respectively). This paves the way to hour-length movie generation and real-time interactive video generation. We provide 68s video generation results and more examples in our project website: https://lineargen.github.io/.

Summary

AI-Generated Summary

PDF104December 16, 2024