Mimir: Verbetering van Video Diffusie Modellen voor Nauwkeurig Tekstbegrip
Mimir: Improving Video Diffusion Models for Precise Text Understanding
December 4, 2024
Auteurs: Shuai Tan, Biao Gong, Yutong Feng, Kecheng Zheng, Dandan Zheng, Shuwei Shi, Yujun Shen, Jingdong Chen, Ming Yang
cs.AI
Samenvatting
Tekst fungeert als het belangrijkste controle-signaal bij videogeneratie vanwege zijn narratieve aard. Om tekstbeschrijvingen om te zetten in videoclips, lenen huidige videodiffusiemodellen kenmerken van tekstencoders, maar worstelen met beperkt tekstbegrip. Het recente succes van grote taalmodellen (LLM's) toont de kracht van decoder-only transformers, die drie duidelijke voordelen bieden voor tekst-naar-video (T2V) generatie, namelijk nauwkeurig tekstbegrip als gevolg van superieure schaalbaarheid, verbeelding voorbij de invoertekst mogelijk gemaakt door voorspelling van het volgende token, en flexibiliteit om gebruikersbelangen te prioriteren via instructietuning. Desalniettemin belemmert de kenmerkende distributiekloof die voortkomt uit de twee verschillende tekstmodelleringsparadigma's het directe gebruik van LLM's in gevestigde T2V-modellen. Dit werk pakt deze uitdaging aan met Mimir, een end-to-end trainingskader met een zorgvuldig op maat gemaakte tokenfuser om de uitvoer van tekstencoders en LLM's te harmoniseren. Een dergelijk ontwerp stelt het T2V-model in staat om volledig te profiteren van geleerde videoprioriteiten en tegelijkertijd te kapitaliseren op de tekstgerelateerde mogelijkheden van LLM's. Uitgebreide kwantitatieve en kwalitatieve resultaten tonen de effectiviteit van Mimir aan bij het genereren van hoogwaardige video's met uitstekend tekstbegrip, vooral bij het verwerken van korte bijschriften en het beheren van verschuivende bewegingen. Projectpagina: https://lucaria-academy.github.io/Mimir/
English
Text serves as the key control signal in video generation due to its
narrative nature. To render text descriptions into video clips, current video
diffusion models borrow features from text encoders yet struggle with limited
text comprehension. The recent success of large language models (LLMs)
showcases the power of decoder-only transformers, which offers three clear
benefits for text-to-video (T2V) generation, namely, precise text understanding
resulting from the superior scalability, imagination beyond the input text
enabled by next token prediction, and flexibility to prioritize user interests
through instruction tuning. Nevertheless, the feature distribution gap emerging
from the two different text modeling paradigms hinders the direct use of LLMs
in established T2V models. This work addresses this challenge with Mimir, an
end-to-end training framework featuring a carefully tailored token fuser to
harmonize the outputs from text encoders and LLMs. Such a design allows the T2V
model to fully leverage learned video priors while capitalizing on the
text-related capability of LLMs. Extensive quantitative and qualitative results
demonstrate the effectiveness of Mimir in generating high-quality videos with
excellent text comprehension, especially when processing short captions and
managing shifting motions. Project page:
https://lucaria-academy.github.io/Mimir/Summary
AI-Generated Summary