Moonshot: Verso la Generazione e Modifica Controllata di Video con Condizioni Multimodali

Abstract

La maggior parte degli attuali modelli di diffusione video (VDM) si limita a condizioni testuali. Di conseguenza, spesso mancano di controllo sull'aspetto visivo e sulla struttura geometrica dei video generati. Questo lavoro presenta Moonshot, un nuovo modello di generazione video che si basa contemporaneamente su input multimodali di immagini e testo. Il modello è costruito attorno a un modulo centrale, chiamato blocco video multimodale (MVB), che consiste in strati spaziotemporali convenzionali per rappresentare le caratteristiche video e uno strato di cross-attention disaccoppiato per gestire gli input di immagini e testo per il condizionamento dell'aspetto. Inoltre, abbiamo progettato con cura l'architettura del modello in modo che possa integrare opzionalmente moduli ControlNet pre-addestrati per condizioni visive geometriche, senza la necessità di un sovraccarico di addestramento aggiuntivo rispetto ai metodi precedenti. Gli esperimenti dimostrano che, grazie ai meccanismi di condizionamento multimodale versatili, Moonshot mostra un miglioramento significativo nella qualità visiva e nella coerenza temporale rispetto ai modelli esistenti. Inoltre, il modello può essere facilmente riadattato per una varietà di applicazioni generative, come la generazione di video personalizzati, l'animazione di immagini e l'editing video, rivelando il suo potenziale come architettura fondamentale per la generazione video controllabile. I modelli saranno resi pubblici su https://github.com/salesforce/LAVIS.

English

Most existing video diffusion models (VDMs) are limited to mere text conditions. Thereby, they are usually lacking in control over visual appearance and geometry structure of the generated videos. This work presents Moonshot, a new video generation model that conditions simultaneously on multimodal inputs of image and text. The model builts upon a core module, called multimodal video block (MVB), which consists of conventional spatialtemporal layers for representing video features, and a decoupled cross-attention layer to address image and text inputs for appearance conditioning. In addition, we carefully design the model architecture such that it can optionally integrate with pre-trained image ControlNet modules for geometry visual conditions, without needing of extra training overhead as opposed to prior methods. Experiments show that with versatile multimodal conditioning mechanisms, Moonshot demonstrates significant improvement on visual quality and temporal consistency compared to existing models. In addition, the model can be easily repurposed for a variety of generative applications, such as personalized video generation, image animation and video editing, unveiling its potential to serve as a fundamental architecture for controllable video generation. Models will be made public on https://github.com/salesforce/LAVIS.

Moonshot: Verso la Generazione e Modifica Controllata di Video con Condizioni Multimodali

Moonshot: Towards Controllable Video Generation and Editing with Multimodal Conditions

Abstract

Support