Moonshot : Vers une génération et une édition vidéo contrôlées avec des conditions multimodales
Moonshot: Towards Controllable Video Generation and Editing with Multimodal Conditions
January 3, 2024
Auteurs: David Junhao Zhang, Dongxu Li, Hung Le, Mike Zheng Shou, Caiming Xiong, Doyen Sahoo
cs.AI
Résumé
La plupart des modèles de diffusion vidéo (VDMs) existants se limitent à des conditions textuelles simples. Par conséquent, ils manquent généralement de contrôle sur l'apparence visuelle et la structure géométrique des vidéos générées. Ce travail présente Moonshot, un nouveau modèle de génération vidéo qui se base simultanément sur des entrées multimodales d'image et de texte. Le modèle s'appuie sur un module central, appelé bloc vidéo multimodal (MVB), qui comprend des couches spatio-temporelles conventionnelles pour représenter les caractéristiques vidéo, ainsi qu'une couche d'attention croisée découplée pour traiter les entrées d'image et de texte afin de conditionner l'apparence. En outre, nous avons soigneusement conçu l'architecture du modèle de manière à ce qu'il puisse s'intégrer de manière optionnelle avec des modules ControlNet d'image pré-entraînés pour les conditions visuelles géométriques, sans nécessiter de surcharge d'entraînement supplémentaire contrairement aux méthodes précédentes. Les expériences montrent qu'avec des mécanismes de conditionnement multimodaux polyvalents, Moonshot démontre une amélioration significative de la qualité visuelle et de la cohérence temporelle par rapport aux modèles existants. De plus, le modèle peut être facilement réutilisé pour une variété d'applications génératives, telles que la génération de vidéos personnalisées, l'animation d'images et l'édition vidéo, révélant son potentiel à servir d'architecture fondamentale pour la génération vidéo contrôlable. Les modèles seront rendus publics sur https://github.com/salesforce/LAVIS.
English
Most existing video diffusion models (VDMs) are limited to mere text
conditions. Thereby, they are usually lacking in control over visual appearance
and geometry structure of the generated videos. This work presents Moonshot, a
new video generation model that conditions simultaneously on multimodal inputs
of image and text. The model builts upon a core module, called multimodal video
block (MVB), which consists of conventional spatialtemporal layers for
representing video features, and a decoupled cross-attention layer to address
image and text inputs for appearance conditioning. In addition, we carefully
design the model architecture such that it can optionally integrate with
pre-trained image ControlNet modules for geometry visual conditions, without
needing of extra training overhead as opposed to prior methods. Experiments
show that with versatile multimodal conditioning mechanisms, Moonshot
demonstrates significant improvement on visual quality and temporal consistency
compared to existing models. In addition, the model can be easily repurposed
for a variety of generative applications, such as personalized video
generation, image animation and video editing, unveiling its potential to serve
as a fundamental architecture for controllable video generation. Models will be
made public on https://github.com/salesforce/LAVIS.