Moonshot: Rumo à Geração e Edição de Vídeo Controlável com Condições Multimodais
Moonshot: Towards Controllable Video Generation and Editing with Multimodal Conditions
January 3, 2024
Autores: David Junhao Zhang, Dongxu Li, Hung Le, Mike Zheng Shou, Caiming Xiong, Doyen Sahoo
cs.AI
Resumo
A maioria dos modelos de difusão de vídeo (VDMs) existentes é limitada a meras condições de texto. Consequentemente, eles geralmente carecem de controle sobre a aparência visual e a estrutura geométrica dos vídeos gerados. Este trabalho apresenta o Moonshot, um novo modelo de geração de vídeo que condiciona simultaneamente em entradas multimodais de imagem e texto. O modelo é construído sobre um módulo central, chamado bloco de vídeo multimodal (MVB), que consiste em camadas espaço-temporais convencionais para representar características de vídeo, e uma camada de atenção cruzada desacoplada para processar entradas de imagem e texto para condicionamento de aparência. Além disso, projetamos cuidadosamente a arquitetura do modelo de forma que ele possa integrar-se opcionalmente com módulos ControlNet de imagem pré-treinados para condições visuais de geometria, sem a necessidade de sobrecarga de treinamento adicional, ao contrário de métodos anteriores. Experimentos mostram que, com mecanismos de condicionamento multimodal versáteis, o Moonshot demonstra uma melhoria significativa na qualidade visual e consistência temporal em comparação com modelos existentes. Além disso, o modelo pode ser facilmente adaptado para uma variedade de aplicações generativas, como geração de vídeo personalizado, animação de imagem e edição de vídeo, revelando seu potencial para servir como uma arquitetura fundamental para geração de vídeo controlável. Os modelos serão disponibilizados publicamente em https://github.com/salesforce/LAVIS.
English
Most existing video diffusion models (VDMs) are limited to mere text
conditions. Thereby, they are usually lacking in control over visual appearance
and geometry structure of the generated videos. This work presents Moonshot, a
new video generation model that conditions simultaneously on multimodal inputs
of image and text. The model builts upon a core module, called multimodal video
block (MVB), which consists of conventional spatialtemporal layers for
representing video features, and a decoupled cross-attention layer to address
image and text inputs for appearance conditioning. In addition, we carefully
design the model architecture such that it can optionally integrate with
pre-trained image ControlNet modules for geometry visual conditions, without
needing of extra training overhead as opposed to prior methods. Experiments
show that with versatile multimodal conditioning mechanisms, Moonshot
demonstrates significant improvement on visual quality and temporal consistency
compared to existing models. In addition, the model can be easily repurposed
for a variety of generative applications, such as personalized video
generation, image animation and video editing, unveiling its potential to serve
as a fundamental architecture for controllable video generation. Models will be
made public on https://github.com/salesforce/LAVIS.