ChatPaper.aiChatPaper

Moonshot: Op weg naar beheersbare videogeneratie en -bewerking met multimodale voorwaarden

Moonshot: Towards Controllable Video Generation and Editing with Multimodal Conditions

January 3, 2024
Auteurs: David Junhao Zhang, Dongxu Li, Hung Le, Mike Zheng Shou, Caiming Xiong, Doyen Sahoo
cs.AI

Samenvatting

De meeste bestaande video-diffusiemodellen (VDMs) zijn beperkt tot alleen tekstcondities. Hierdoor ontbreekt het hen vaak aan controle over het visuele uiterlijk en de geometrische structuur van de gegenereerde video's. Dit werk presenteert Moonshot, een nieuw videogeneratiemodel dat gelijktijdig conditioneert op multimodale invoer van beeld en tekst. Het model is gebouwd rond een kernmodule, genaamd de multimodale videoblok (MVB), die bestaat uit conventionele ruimtelijk-temporele lagen voor het representeren van videokenmerken, en een ontkoppelde cross-attentielaag om beeld- en tekstinvoer aan te pakken voor uiterlijkconditionering. Daarnaast hebben we de modelarchitectuur zorgvuldig ontworpen zodat deze optioneel kan integreren met vooraf getrainde ControlNet-modules voor geometrische visuele condities, zonder de noodzaak van extra trainingsoverhead in tegenstelling tot eerdere methoden. Experimenten tonen aan dat Moonshot, dankzij de veelzijdige multimodale conditioneringsmechanismen, een aanzienlijke verbetering laat zien in visuele kwaliteit en temporele consistentie vergeleken met bestaande modellen. Bovendien kan het model eenvoudig worden hergebruikt voor een verscheidenheid aan generatieve toepassingen, zoals gepersonaliseerde videogeneratie, beeldanimatie en videobewerking, wat het potentieel onthult om te dienen als een fundamentele architectuur voor controleerbare videogeneratie. De modellen zullen openbaar worden gemaakt op https://github.com/salesforce/LAVIS.
English
Most existing video diffusion models (VDMs) are limited to mere text conditions. Thereby, they are usually lacking in control over visual appearance and geometry structure of the generated videos. This work presents Moonshot, a new video generation model that conditions simultaneously on multimodal inputs of image and text. The model builts upon a core module, called multimodal video block (MVB), which consists of conventional spatialtemporal layers for representing video features, and a decoupled cross-attention layer to address image and text inputs for appearance conditioning. In addition, we carefully design the model architecture such that it can optionally integrate with pre-trained image ControlNet modules for geometry visual conditions, without needing of extra training overhead as opposed to prior methods. Experiments show that with versatile multimodal conditioning mechanisms, Moonshot demonstrates significant improvement on visual quality and temporal consistency compared to existing models. In addition, the model can be easily repurposed for a variety of generative applications, such as personalized video generation, image animation and video editing, unveiling its potential to serve as a fundamental architecture for controllable video generation. Models will be made public on https://github.com/salesforce/LAVIS.
PDF181December 15, 2024