Mimir: Mejorando los Modelos de Difusión de Video para una Comprensión Precisa del Texto
Mimir: Improving Video Diffusion Models for Precise Text Understanding
December 4, 2024
Autores: Shuai Tan, Biao Gong, Yutong Feng, Kecheng Zheng, Dandan Zheng, Shuwei Shi, Yujun Shen, Jingdong Chen, Ming Yang
cs.AI
Resumen
El texto sirve como la señal de control clave en la generación de video debido a su naturaleza narrativa. Para convertir descripciones de texto en videoclips, los modelos actuales de difusión de video adoptan características de los codificadores de texto pero luchan con la comprensión limitada del texto. El reciente éxito de los grandes modelos de lenguaje (LLMs) muestra el poder de los transformadores de solo decodificador, que ofrece tres claros beneficios para la generación de texto a video (T2V), a saber, una comprensión precisa del texto resultante de la escalabilidad superior, la imaginación más allá del texto de entrada habilitada por la predicción del siguiente token, y la flexibilidad para priorizar los intereses del usuario a través de la sintonización de instrucciones. Sin embargo, la brecha de distribución de características que surge de los dos paradigmas de modelado de texto diferentes obstaculiza el uso directo de LLMs en los modelos T2V establecidos. Este trabajo aborda este desafío con Mimir, un marco de entrenamiento de extremo a extremo que presenta un fusor de tokens cuidadosamente diseñado para armonizar las salidas de los codificadores de texto y LLMs. Este diseño permite que el modelo T2V aproveche completamente los conocimientos previos de video aprendidos mientras capitaliza la capacidad relacionada con el texto de LLMs. Resultados extensos cuantitativos y cualitativos demuestran la efectividad de Mimir en la generación de videos de alta calidad con una excelente comprensión del texto, especialmente al procesar subtítulos cortos y gestionar movimientos cambiantes. Página del proyecto: https://lucaria-academy.github.io/Mimir/
English
Text serves as the key control signal in video generation due to its
narrative nature. To render text descriptions into video clips, current video
diffusion models borrow features from text encoders yet struggle with limited
text comprehension. The recent success of large language models (LLMs)
showcases the power of decoder-only transformers, which offers three clear
benefits for text-to-video (T2V) generation, namely, precise text understanding
resulting from the superior scalability, imagination beyond the input text
enabled by next token prediction, and flexibility to prioritize user interests
through instruction tuning. Nevertheless, the feature distribution gap emerging
from the two different text modeling paradigms hinders the direct use of LLMs
in established T2V models. This work addresses this challenge with Mimir, an
end-to-end training framework featuring a carefully tailored token fuser to
harmonize the outputs from text encoders and LLMs. Such a design allows the T2V
model to fully leverage learned video priors while capitalizing on the
text-related capability of LLMs. Extensive quantitative and qualitative results
demonstrate the effectiveness of Mimir in generating high-quality videos with
excellent text comprehension, especially when processing short captions and
managing shifting motions. Project page:
https://lucaria-academy.github.io/Mimir/Summary
AI-Generated Summary