Moonshot : Vers une génération et une édition vidéo contrôlées avec des conditions multimodales

papers.abstract

La plupart des modèles de diffusion vidéo (VDMs) existants se limitent à des conditions textuelles simples. Par conséquent, ils manquent généralement de contrôle sur l'apparence visuelle et la structure géométrique des vidéos générées. Ce travail présente Moonshot, un nouveau modèle de génération vidéo qui se base simultanément sur des entrées multimodales d'image et de texte. Le modèle s'appuie sur un module central, appelé bloc vidéo multimodal (MVB), qui comprend des couches spatio-temporelles conventionnelles pour représenter les caractéristiques vidéo, ainsi qu'une couche d'attention croisée découplée pour traiter les entrées d'image et de texte afin de conditionner l'apparence. En outre, nous avons soigneusement conçu l'architecture du modèle de manière à ce qu'il puisse s'intégrer de manière optionnelle avec des modules ControlNet d'image pré-entraînés pour les conditions visuelles géométriques, sans nécessiter de surcharge d'entraînement supplémentaire contrairement aux méthodes précédentes. Les expériences montrent qu'avec des mécanismes de conditionnement multimodaux polyvalents, Moonshot démontre une amélioration significative de la qualité visuelle et de la cohérence temporelle par rapport aux modèles existants. De plus, le modèle peut être facilement réutilisé pour une variété d'applications génératives, telles que la génération de vidéos personnalisées, l'animation d'images et l'édition vidéo, révélant son potentiel à servir d'architecture fondamentale pour la génération vidéo contrôlable. Les modèles seront rendus publics sur https://github.com/salesforce/LAVIS.

English

Most existing video diffusion models (VDMs) are limited to mere text conditions. Thereby, they are usually lacking in control over visual appearance and geometry structure of the generated videos. This work presents Moonshot, a new video generation model that conditions simultaneously on multimodal inputs of image and text. The model builts upon a core module, called multimodal video block (MVB), which consists of conventional spatialtemporal layers for representing video features, and a decoupled cross-attention layer to address image and text inputs for appearance conditioning. In addition, we carefully design the model architecture such that it can optionally integrate with pre-trained image ControlNet modules for geometry visual conditions, without needing of extra training overhead as opposed to prior methods. Experiments show that with versatile multimodal conditioning mechanisms, Moonshot demonstrates significant improvement on visual quality and temporal consistency compared to existing models. In addition, the model can be easily repurposed for a variety of generative applications, such as personalized video generation, image animation and video editing, unveiling its potential to serve as a fundamental architecture for controllable video generation. Models will be made public on https://github.com/salesforce/LAVIS.

Moonshot : Vers une génération et une édition vidéo contrôlées avec des conditions multimodales

Moonshot: Towards Controllable Video Generation and Editing with Multimodal Conditions

papers.abstract

Support