Moonshot: Hacia la Generación y Edición Controlada de Vídeos con Condiciones Multimodales

Resumen

La mayoría de los modelos de difusión de video (VDMs) existentes se limitan a condiciones basadas únicamente en texto. Por ello, suelen carecer de control sobre la apariencia visual y la estructura geométrica de los videos generados. Este trabajo presenta Moonshot, un nuevo modelo de generación de video que se condiciona simultáneamente en entradas multimodales de imagen y texto. El modelo se basa en un módulo central, denominado bloque de video multimodal (MVB), que consta de capas espacio-temporales convencionales para representar características de video, y una capa de atención cruzada desacoplada para abordar las entradas de imagen y texto como condiciones de apariencia. Además, diseñamos cuidadosamente la arquitectura del modelo para que pueda integrarse opcionalmente con módulos ControlNet de imagen preentrenados para condiciones visuales geométricas, sin necesidad de sobrecarga de entrenamiento adicional, a diferencia de métodos anteriores. Los experimentos muestran que, con mecanismos de condicionamiento multimodal versátiles, Moonshot demuestra una mejora significativa en la calidad visual y la consistencia temporal en comparación con los modelos existentes. Además, el modelo puede reutilizarse fácilmente para una variedad de aplicaciones generativas, como la generación de videos personalizados, la animación de imágenes y la edición de video, revelando su potencial para servir como una arquitectura fundamental para la generación de video controlable. Los modelos estarán disponibles públicamente en https://github.com/salesforce/LAVIS.

English

Most existing video diffusion models (VDMs) are limited to mere text conditions. Thereby, they are usually lacking in control over visual appearance and geometry structure of the generated videos. This work presents Moonshot, a new video generation model that conditions simultaneously on multimodal inputs of image and text. The model builts upon a core module, called multimodal video block (MVB), which consists of conventional spatialtemporal layers for representing video features, and a decoupled cross-attention layer to address image and text inputs for appearance conditioning. In addition, we carefully design the model architecture such that it can optionally integrate with pre-trained image ControlNet modules for geometry visual conditions, without needing of extra training overhead as opposed to prior methods. Experiments show that with versatile multimodal conditioning mechanisms, Moonshot demonstrates significant improvement on visual quality and temporal consistency compared to existing models. In addition, the model can be easily repurposed for a variety of generative applications, such as personalized video generation, image animation and video editing, unveiling its potential to serve as a fundamental architecture for controllable video generation. Models will be made public on https://github.com/salesforce/LAVIS.

Moonshot: Hacia la Generación y Edición Controlada de Vídeos con Condiciones Multimodales

Moonshot: Towards Controllable Video Generation and Editing with Multimodal Conditions

Resumen

Support