LinGen: Rumo à Geração de Vídeo a partir de Texto de Alta Resolução e Duração de Minutos com Complexidade Computacional Linear
LinGen: Towards High-Resolution Minute-Length Text-to-Video Generation with Linear Computational Complexity
December 13, 2024
Autores: Hongjie Wang, Chih-Yao Ma, Yen-Cheng Liu, Ji Hou, Tao Xu, Jialiang Wang, Felix Juefei-Xu, Yaqiao Luo, Peizhao Zhang, Tingbo Hou, Peter Vajda, Niraj K. Jha, Xiaoliang Dai
cs.AI
Resumo
A geração de vídeo a partir de texto melhora a criação de conteúdo, mas é altamente intensiva em termos computacionais: o custo computacional dos Transformadores de Difusão (DiTs) escala de forma quadrática com o número de pixels. Isso torna a geração de vídeos de curta duração extremamente cara, limitando a maioria dos modelos existentes a gerar vídeos com apenas 10-20 segundos de duração. Propomos um framework de Geração de Vídeo Linear (LinGen) cujo custo escala linearmente com o número de pixels. Pela primeira vez, o LinGen possibilita a geração de vídeos de alta resolução de longa duração em uma única GPU sem comprometer a qualidade. Ele substitui o bloco de autoatenção, dominante computacionalmente e de complexidade quadrática, por um bloco de complexidade linear chamado MATE, que consiste em um ramo MA e um ramo TE. O ramo MA visa correlações de curto a longo alcance, combinando um bloco bidirecional Mamba2 com nosso método de rearranjo de tokens, Rotary Major Scan, e nossos tokens de revisão desenvolvidos para geração de vídeos longos. O ramo TE é um novo bloco de Atenção Swin Temporal que se concentra em correlações temporais entre tokens adjacentes e tokens de alcance médio. O bloco MATE aborda a questão da preservação de adjacência do Mamba e melhora significativamente a consistência dos vídeos gerados. Resultados experimentais mostram que o LinGen supera o DiT (com uma taxa de vitória de 75,6%) em qualidade de vídeo com redução de até 15 vezes (11,5 vezes) em FLOPs (latência). Além disso, tanto métricas automáticas quanto avaliação humana demonstram que nosso LinGen-4B produz qualidade de vídeo comparável aos modelos de ponta (com uma taxa de vitória de 50,5%, 52,1%, 49,1% em relação a Gen-3, LumaLabs e Kling, respectivamente). Isso abre caminho para a geração de filmes de longa duração e geração de vídeo interativo em tempo real. Fornecemos resultados de geração de vídeo de 68 segundos e mais exemplos em nosso site do projeto: https://lineargen.github.io/.
English
Text-to-video generation enhances content creation but is highly
computationally intensive: The computational cost of Diffusion Transformers
(DiTs) scales quadratically in the number of pixels. This makes minute-length
video generation extremely expensive, limiting most existing models to
generating videos of only 10-20 seconds length. We propose a Linear-complexity
text-to-video Generation (LinGen) framework whose cost scales linearly in the
number of pixels. For the first time, LinGen enables high-resolution
minute-length video generation on a single GPU without compromising quality. It
replaces the computationally-dominant and quadratic-complexity block,
self-attention, with a linear-complexity block called MATE, which consists of
an MA-branch and a TE-branch. The MA-branch targets short-to-long-range
correlations, combining a bidirectional Mamba2 block with our token
rearrangement method, Rotary Major Scan, and our review tokens developed for
long video generation. The TE-branch is a novel TEmporal Swin Attention block
that focuses on temporal correlations between adjacent tokens and medium-range
tokens. The MATE block addresses the adjacency preservation issue of Mamba and
improves the consistency of generated videos significantly. Experimental
results show that LinGen outperforms DiT (with a 75.6% win rate) in video
quality with up to 15times (11.5times) FLOPs (latency) reduction.
Furthermore, both automatic metrics and human evaluation demonstrate our
LinGen-4B yields comparable video quality to state-of-the-art models (with a
50.5%, 52.1%, 49.1% win rate with respect to Gen-3, LumaLabs, and Kling,
respectively). This paves the way to hour-length movie generation and real-time
interactive video generation. We provide 68s video generation results and more
examples in our project website: https://lineargen.github.io/.Summary
AI-Generated Summary