Moonshot: Hacia la Generación y Edición Controlada de Vídeos con Condiciones Multimodales
Moonshot: Towards Controllable Video Generation and Editing with Multimodal Conditions
January 3, 2024
Autores: David Junhao Zhang, Dongxu Li, Hung Le, Mike Zheng Shou, Caiming Xiong, Doyen Sahoo
cs.AI
Resumen
La mayoría de los modelos de difusión de video (VDMs) existentes se limitan a condiciones basadas únicamente en texto. Por ello, suelen carecer de control sobre la apariencia visual y la estructura geométrica de los videos generados. Este trabajo presenta Moonshot, un nuevo modelo de generación de video que se condiciona simultáneamente en entradas multimodales de imagen y texto. El modelo se basa en un módulo central, denominado bloque de video multimodal (MVB), que consta de capas espacio-temporales convencionales para representar características de video, y una capa de atención cruzada desacoplada para abordar las entradas de imagen y texto como condiciones de apariencia. Además, diseñamos cuidadosamente la arquitectura del modelo para que pueda integrarse opcionalmente con módulos ControlNet de imagen preentrenados para condiciones visuales geométricas, sin necesidad de sobrecarga de entrenamiento adicional, a diferencia de métodos anteriores. Los experimentos muestran que, con mecanismos de condicionamiento multimodal versátiles, Moonshot demuestra una mejora significativa en la calidad visual y la consistencia temporal en comparación con los modelos existentes. Además, el modelo puede reutilizarse fácilmente para una variedad de aplicaciones generativas, como la generación de videos personalizados, la animación de imágenes y la edición de video, revelando su potencial para servir como una arquitectura fundamental para la generación de video controlable. Los modelos estarán disponibles públicamente en https://github.com/salesforce/LAVIS.
English
Most existing video diffusion models (VDMs) are limited to mere text
conditions. Thereby, they are usually lacking in control over visual appearance
and geometry structure of the generated videos. This work presents Moonshot, a
new video generation model that conditions simultaneously on multimodal inputs
of image and text. The model builts upon a core module, called multimodal video
block (MVB), which consists of conventional spatialtemporal layers for
representing video features, and a decoupled cross-attention layer to address
image and text inputs for appearance conditioning. In addition, we carefully
design the model architecture such that it can optionally integrate with
pre-trained image ControlNet modules for geometry visual conditions, without
needing of extra training overhead as opposed to prior methods. Experiments
show that with versatile multimodal conditioning mechanisms, Moonshot
demonstrates significant improvement on visual quality and temporal consistency
compared to existing models. In addition, the model can be easily repurposed
for a variety of generative applications, such as personalized video
generation, image animation and video editing, unveiling its potential to serve
as a fundamental architecture for controllable video generation. Models will be
made public on https://github.com/salesforce/LAVIS.