Mimir: Melhorando Modelos de Difusão de Vídeo para uma Compreensão Precisa de Texto
Mimir: Improving Video Diffusion Models for Precise Text Understanding
December 4, 2024
Autores: Shuai Tan, Biao Gong, Yutong Feng, Kecheng Zheng, Dandan Zheng, Shuwei Shi, Yujun Shen, Jingdong Chen, Ming Yang
cs.AI
Resumo
O texto serve como o sinal de controle chave na geração de vídeos devido à sua natureza narrativa. Para transformar descrições de texto em videoclipes, os modelos de difusão de vídeo atuais adotam características dos codificadores de texto, porém enfrentam dificuldades com a compreensão limitada do texto. O recente sucesso dos grandes modelos de linguagem (LLMs) destaca o poder dos transformadores com apenas decodificador, que oferece três benefícios claros para a geração de texto para vídeo (T2V), a saber, compreensão precisa do texto resultante da escalabilidade superior, imaginação além do texto de entrada possibilitada pela previsão do próximo token e flexibilidade para priorizar os interesses do usuário por meio do ajuste de instruções. No entanto, a discrepância na distribuição de características proveniente dos dois diferentes paradigmas de modelagem de texto dificulta o uso direto dos LLMs em modelos T2V estabelecidos. Este trabalho aborda esse desafio com o Mimir, um framework de treinamento de ponta a ponta apresentando um fusor de token cuidadosamente adaptado para harmonizar as saídas dos codificadores de texto e dos LLMs. Tal projeto permite que o modelo T2V aproveite totalmente os conhecimentos prévios de vídeo aprendidos, ao mesmo tempo que capitaliza a capacidade relacionada ao texto dos LLMs. Resultados extensivos quantitativos e qualitativos demonstram a eficácia do Mimir na geração de vídeos de alta qualidade com excelente compreensão de texto, especialmente ao processar legendas curtas e gerenciar movimentos em mudança. Página do projeto: https://lucaria-academy.github.io/Mimir/
English
Text serves as the key control signal in video generation due to its
narrative nature. To render text descriptions into video clips, current video
diffusion models borrow features from text encoders yet struggle with limited
text comprehension. The recent success of large language models (LLMs)
showcases the power of decoder-only transformers, which offers three clear
benefits for text-to-video (T2V) generation, namely, precise text understanding
resulting from the superior scalability, imagination beyond the input text
enabled by next token prediction, and flexibility to prioritize user interests
through instruction tuning. Nevertheless, the feature distribution gap emerging
from the two different text modeling paradigms hinders the direct use of LLMs
in established T2V models. This work addresses this challenge with Mimir, an
end-to-end training framework featuring a carefully tailored token fuser to
harmonize the outputs from text encoders and LLMs. Such a design allows the T2V
model to fully leverage learned video priors while capitalizing on the
text-related capability of LLMs. Extensive quantitative and qualitative results
demonstrate the effectiveness of Mimir in generating high-quality videos with
excellent text comprehension, especially when processing short captions and
managing shifting motions. Project page:
https://lucaria-academy.github.io/Mimir/Summary
AI-Generated Summary