Mimir: Улучшение моделей видеораспространения для точного понимания текста
Mimir: Improving Video Diffusion Models for Precise Text Understanding
December 4, 2024
Авторы: Shuai Tan, Biao Gong, Yutong Feng, Kecheng Zheng, Dandan Zheng, Shuwei Shi, Yujun Shen, Jingdong Chen, Ming Yang
cs.AI
Аннотация
Текст служит ключевым управляющим сигналом в генерации видео из-за его повествовательной природы. Для преобразования текстовых описаний в видеоролики текущие модели диффузии видео заимствуют признаки у текстовых кодировщиков, однако испытывают затруднения из-за ограниченного понимания текста. Недавний успех крупных языковых моделей (LLM) демонстрирует мощь трансформеров только декодера, что предлагает три явных преимущества для генерации текста в видео (T2V), а именно, точное понимание текста благодаря превосходной масштабируемости, воображение за пределами входного текста, обеспечиваемое предсказанием следующего токена, и гибкость в приоритизации интересов пользователя через настройку инструкций. Тем не менее разрыв в распределении признаков, возникающий из-за двух различных парадигм моделирования текста, мешает прямому использованию LLM в установленных моделях T2V. В данной работе решается эта проблема с помощью Mimir, конечной обучающей структуры, представляющей собой тщательно выверенный токенный сливатель для гармонизации результатов от текстовых кодировщиков и LLM. Такой дизайн позволяет модели T2V полностью использовать изученные видеоприоритеты, сохраняя при этом возможности, связанные с текстом, LLM. Обширные количественные и качественные результаты демонстрируют эффективность Mimir в создании видеороликов высокого качества с отличным пониманием текста, особенно при обработке коротких подписей и управлении изменяющимися движениями. Страница проекта: https://lucaria-academy.github.io/Mimir/
English
Text serves as the key control signal in video generation due to its
narrative nature. To render text descriptions into video clips, current video
diffusion models borrow features from text encoders yet struggle with limited
text comprehension. The recent success of large language models (LLMs)
showcases the power of decoder-only transformers, which offers three clear
benefits for text-to-video (T2V) generation, namely, precise text understanding
resulting from the superior scalability, imagination beyond the input text
enabled by next token prediction, and flexibility to prioritize user interests
through instruction tuning. Nevertheless, the feature distribution gap emerging
from the two different text modeling paradigms hinders the direct use of LLMs
in established T2V models. This work addresses this challenge with Mimir, an
end-to-end training framework featuring a carefully tailored token fuser to
harmonize the outputs from text encoders and LLMs. Such a design allows the T2V
model to fully leverage learned video priors while capitalizing on the
text-related capability of LLMs. Extensive quantitative and qualitative results
demonstrate the effectiveness of Mimir in generating high-quality videos with
excellent text comprehension, especially when processing short captions and
managing shifting motions. Project page:
https://lucaria-academy.github.io/Mimir/Summary
AI-Generated Summary