Moonshot: Rumo à Geração e Edição de Vídeo Controlável com Condições Multimodais

Resumo

A maioria dos modelos de difusão de vídeo (VDMs) existentes é limitada a meras condições de texto. Consequentemente, eles geralmente carecem de controle sobre a aparência visual e a estrutura geométrica dos vídeos gerados. Este trabalho apresenta o Moonshot, um novo modelo de geração de vídeo que condiciona simultaneamente em entradas multimodais de imagem e texto. O modelo é construído sobre um módulo central, chamado bloco de vídeo multimodal (MVB), que consiste em camadas espaço-temporais convencionais para representar características de vídeo, e uma camada de atenção cruzada desacoplada para processar entradas de imagem e texto para condicionamento de aparência. Além disso, projetamos cuidadosamente a arquitetura do modelo de forma que ele possa integrar-se opcionalmente com módulos ControlNet de imagem pré-treinados para condições visuais de geometria, sem a necessidade de sobrecarga de treinamento adicional, ao contrário de métodos anteriores. Experimentos mostram que, com mecanismos de condicionamento multimodal versáteis, o Moonshot demonstra uma melhoria significativa na qualidade visual e consistência temporal em comparação com modelos existentes. Além disso, o modelo pode ser facilmente adaptado para uma variedade de aplicações generativas, como geração de vídeo personalizado, animação de imagem e edição de vídeo, revelando seu potencial para servir como uma arquitetura fundamental para geração de vídeo controlável. Os modelos serão disponibilizados publicamente em https://github.com/salesforce/LAVIS.

English

Most existing video diffusion models (VDMs) are limited to mere text conditions. Thereby, they are usually lacking in control over visual appearance and geometry structure of the generated videos. This work presents Moonshot, a new video generation model that conditions simultaneously on multimodal inputs of image and text. The model builts upon a core module, called multimodal video block (MVB), which consists of conventional spatialtemporal layers for representing video features, and a decoupled cross-attention layer to address image and text inputs for appearance conditioning. In addition, we carefully design the model architecture such that it can optionally integrate with pre-trained image ControlNet modules for geometry visual conditions, without needing of extra training overhead as opposed to prior methods. Experiments show that with versatile multimodal conditioning mechanisms, Moonshot demonstrates significant improvement on visual quality and temporal consistency compared to existing models. In addition, the model can be easily repurposed for a variety of generative applications, such as personalized video generation, image animation and video editing, unveiling its potential to serve as a fundamental architecture for controllable video generation. Models will be made public on https://github.com/salesforce/LAVIS.

Moonshot: Rumo à Geração e Edição de Vídeo Controlável com Condições Multimodais

Moonshot: Towards Controllable Video Generation and Editing with Multimodal Conditions

Resumo

Support