Mimir : Amélioration des modèles de diffusion vidéo pour une compréhension précise du texte
Mimir: Improving Video Diffusion Models for Precise Text Understanding
December 4, 2024
Auteurs: Shuai Tan, Biao Gong, Yutong Feng, Kecheng Zheng, Dandan Zheng, Shuwei Shi, Yujun Shen, Jingdong Chen, Ming Yang
cs.AI
Résumé
Le texte sert de signal de contrôle clé dans la génération vidéo en raison de sa nature narrative. Pour transformer les descriptions textuelles en clips vidéo, les modèles actuels de diffusion vidéo empruntent des caractéristiques aux encodeurs de texte mais rencontrent des difficultés liées à la compréhension limitée du texte. Le récent succès des grands modèles de langage (LLM) met en avant la puissance des transformateurs à décodeur unique, offrant ainsi trois avantages clairs pour la génération texte-vidéo (T2V) : une compréhension textuelle précise résultant d'une extensibilité supérieure, une imagination au-delà du texte d'entrée permise par la prédiction du jeton suivant, et une flexibilité pour prioriser les intérêts des utilisateurs grâce à l'ajustement des instructions. Néanmoins, l'écart de distribution des caractéristiques émergeant des deux paradigmes de modélisation textuelle différents entrave l'utilisation directe des LLM dans les modèles T2V établis. Ce travail relève ce défi avec Mimir, un cadre d'entraînement de bout en bout doté d'un fusionneur de jetons soigneusement adapté pour harmoniser les sorties des encodeurs de texte et des LLM. Une telle conception permet au modèle T2V de tirer pleinement parti des connaissances préalables vidéo apprises tout en capitalisant sur la capacité liée au texte des LLM. Des résultats quantitatifs et qualitatifs approfondis démontrent l'efficacité de Mimir dans la génération de vidéos de haute qualité avec une excellente compréhension du texte, notamment lors du traitement de courtes légendes et de la gestion des mouvements changeants. Page du projet : https://lucaria-academy.github.io/Mimir/
English
Text serves as the key control signal in video generation due to its
narrative nature. To render text descriptions into video clips, current video
diffusion models borrow features from text encoders yet struggle with limited
text comprehension. The recent success of large language models (LLMs)
showcases the power of decoder-only transformers, which offers three clear
benefits for text-to-video (T2V) generation, namely, precise text understanding
resulting from the superior scalability, imagination beyond the input text
enabled by next token prediction, and flexibility to prioritize user interests
through instruction tuning. Nevertheless, the feature distribution gap emerging
from the two different text modeling paradigms hinders the direct use of LLMs
in established T2V models. This work addresses this challenge with Mimir, an
end-to-end training framework featuring a carefully tailored token fuser to
harmonize the outputs from text encoders and LLMs. Such a design allows the T2V
model to fully leverage learned video priors while capitalizing on the
text-related capability of LLMs. Extensive quantitative and qualitative results
demonstrate the effectiveness of Mimir in generating high-quality videos with
excellent text comprehension, especially when processing short captions and
managing shifting motions. Project page:
https://lucaria-academy.github.io/Mimir/Summary
AI-Generated Summary