Mimir: Verbesserung von Videodiffusionsmodellen für präzises Textverständnis
Mimir: Improving Video Diffusion Models for Precise Text Understanding
December 4, 2024
Autoren: Shuai Tan, Biao Gong, Yutong Feng, Kecheng Zheng, Dandan Zheng, Shuwei Shi, Yujun Shen, Jingdong Chen, Ming Yang
cs.AI
Zusammenfassung
Text dient als Schlüsselsteuersignal in der Videogenerierung aufgrund seines narrativen Charakters. Um Textbeschreibungen in Videoclips umzusetzen, greifen aktuelle Videodiffusionsmodelle auf Merkmale von Textcodierern zurück, haben jedoch Schwierigkeiten mit der begrenzten Textverständnis. Der jüngste Erfolg großer Sprachmodelle (LLMs) zeigt die Leistungsfähigkeit von Decoder-only-Transformern, die drei klare Vorteile für die Text-zu-Video (T2V)-Generierung bieten, nämlich präzises Textverständnis aufgrund der überlegenen Skalierbarkeit, Vorstellungskraft über den Eingabetext hinaus durch die Vorhersage des nächsten Tokens und Flexibilität, um Benutzerinteressen durch Anleitungsoptimierung zu priorisieren. Dennoch hindert die aus den beiden verschiedenen Textmodellierungsparadigmen resultierende Merkmalsverteilungslücke die direkte Verwendung von LLMs in etablierten T2V-Modellen. Diese Arbeit befasst sich mit dieser Herausforderung mit Mimir, einem End-to-End-Trainingsrahmen, der einen sorgfältig angepassten Token-Fuser zur Harmonisierung der Ausgaben von Textcodierern und LLMs bietet. Ein solches Design ermöglicht es dem T2V-Modell, die gelernten Videoprioritäten voll auszuschöpfen und gleichzeitig die textbezogene Fähigkeit von LLMs zu nutzen. Umfangreiche quantitative und qualitative Ergebnisse zeigen die Wirksamkeit von Mimir bei der Erzeugung hochwertiger Videos mit ausgezeichnetem Textverständnis, insbesondere bei der Verarbeitung kurzer Bildunterschriften und der Verwaltung von Bewegungen. Projektseite: https://lucaria-academy.github.io/Mimir/
English
Text serves as the key control signal in video generation due to its
narrative nature. To render text descriptions into video clips, current video
diffusion models borrow features from text encoders yet struggle with limited
text comprehension. The recent success of large language models (LLMs)
showcases the power of decoder-only transformers, which offers three clear
benefits for text-to-video (T2V) generation, namely, precise text understanding
resulting from the superior scalability, imagination beyond the input text
enabled by next token prediction, and flexibility to prioritize user interests
through instruction tuning. Nevertheless, the feature distribution gap emerging
from the two different text modeling paradigms hinders the direct use of LLMs
in established T2V models. This work addresses this challenge with Mimir, an
end-to-end training framework featuring a carefully tailored token fuser to
harmonize the outputs from text encoders and LLMs. Such a design allows the T2V
model to fully leverage learned video priors while capitalizing on the
text-related capability of LLMs. Extensive quantitative and qualitative results
demonstrate the effectiveness of Mimir in generating high-quality videos with
excellent text comprehension, especially when processing short captions and
managing shifting motions. Project page:
https://lucaria-academy.github.io/Mimir/Summary
AI-Generated Summary