Moonshot: Op weg naar beheersbare videogeneratie en -bewerking met multimodale voorwaarden
Moonshot: Towards Controllable Video Generation and Editing with Multimodal Conditions
January 3, 2024
Auteurs: David Junhao Zhang, Dongxu Li, Hung Le, Mike Zheng Shou, Caiming Xiong, Doyen Sahoo
cs.AI
Samenvatting
De meeste bestaande video-diffusiemodellen (VDMs) zijn beperkt tot alleen tekstcondities. Hierdoor ontbreekt het hen vaak aan controle over het visuele uiterlijk en de geometrische structuur van de gegenereerde video's. Dit werk presenteert Moonshot, een nieuw videogeneratiemodel dat gelijktijdig conditioneert op multimodale invoer van beeld en tekst. Het model is gebouwd rond een kernmodule, genaamd de multimodale videoblok (MVB), die bestaat uit conventionele ruimtelijk-temporele lagen voor het representeren van videokenmerken, en een ontkoppelde cross-attentielaag om beeld- en tekstinvoer aan te pakken voor uiterlijkconditionering. Daarnaast hebben we de modelarchitectuur zorgvuldig ontworpen zodat deze optioneel kan integreren met vooraf getrainde ControlNet-modules voor geometrische visuele condities, zonder de noodzaak van extra trainingsoverhead in tegenstelling tot eerdere methoden. Experimenten tonen aan dat Moonshot, dankzij de veelzijdige multimodale conditioneringsmechanismen, een aanzienlijke verbetering laat zien in visuele kwaliteit en temporele consistentie vergeleken met bestaande modellen. Bovendien kan het model eenvoudig worden hergebruikt voor een verscheidenheid aan generatieve toepassingen, zoals gepersonaliseerde videogeneratie, beeldanimatie en videobewerking, wat het potentieel onthult om te dienen als een fundamentele architectuur voor controleerbare videogeneratie. De modellen zullen openbaar worden gemaakt op https://github.com/salesforce/LAVIS.
English
Most existing video diffusion models (VDMs) are limited to mere text
conditions. Thereby, they are usually lacking in control over visual appearance
and geometry structure of the generated videos. This work presents Moonshot, a
new video generation model that conditions simultaneously on multimodal inputs
of image and text. The model builts upon a core module, called multimodal video
block (MVB), which consists of conventional spatialtemporal layers for
representing video features, and a decoupled cross-attention layer to address
image and text inputs for appearance conditioning. In addition, we carefully
design the model architecture such that it can optionally integrate with
pre-trained image ControlNet modules for geometry visual conditions, without
needing of extra training overhead as opposed to prior methods. Experiments
show that with versatile multimodal conditioning mechanisms, Moonshot
demonstrates significant improvement on visual quality and temporal consistency
compared to existing models. In addition, the model can be easily repurposed
for a variety of generative applications, such as personalized video
generation, image animation and video editing, unveiling its potential to serve
as a fundamental architecture for controllable video generation. Models will be
made public on https://github.com/salesforce/LAVIS.