Moonshot: Auf dem Weg zu kontrollierbarer Videogenerierung und -bearbeitung mit multimodalen Bedingungen
Moonshot: Towards Controllable Video Generation and Editing with Multimodal Conditions
January 3, 2024
Autoren: David Junhao Zhang, Dongxu Li, Hung Le, Mike Zheng Shou, Caiming Xiong, Doyen Sahoo
cs.AI
Zusammenfassung
Die meisten bestehenden Video-Diffusionsmodelle (VDMs) beschränken sich auf reine Textbedingungen. Dadurch mangelt es ihnen in der Regel an Kontrolle über das visuelle Erscheinungsbild und die geometrische Struktur der generierten Videos. Diese Arbeit stellt Moonshot vor, ein neues Videogenerierungsmodell, das gleichzeitig auf multimodale Eingaben von Bild und Text konditioniert. Das Modell basiert auf einem Kernmodul, dem sogenannten multimodalen Video-Block (MVB), das aus konventionellen raumzeitlichen Schichten zur Darstellung von Videomerkmalen und einer entkoppelten Cross-Attention-Schicht besteht, um Bild- und Texteingaben für die Erscheinungsbedingung zu verarbeiten. Darüber hinaus haben wir die Modellarchitektur sorgfältig so gestaltet, dass sie optional mit vortrainierten Image-ControlNet-Modulen für geometrische visuelle Bedingungen integriert werden kann, ohne wie bei früheren Methoden zusätzlichen Trainingsaufwand zu benötigen. Experimente zeigen, dass Moonshot durch vielseitige multimodale Konditionierungsmechanismen eine signifikante Verbesserung der visuellen Qualität und zeitlichen Konsistenz im Vergleich zu bestehenden Modellen aufweist. Darüber hinaus kann das Modell leicht für eine Vielzahl von generativen Anwendungen wie personalisierte Videogenerierung, Bildanimation und Videobearbeitung umfunktioniert werden, was sein Potenzial als grundlegende Architektur für kontrollierbare Videogenerierung offenbart. Die Modelle werden unter https://github.com/salesforce/LAVIS öffentlich zugänglich gemacht.
English
Most existing video diffusion models (VDMs) are limited to mere text
conditions. Thereby, they are usually lacking in control over visual appearance
and geometry structure of the generated videos. This work presents Moonshot, a
new video generation model that conditions simultaneously on multimodal inputs
of image and text. The model builts upon a core module, called multimodal video
block (MVB), which consists of conventional spatialtemporal layers for
representing video features, and a decoupled cross-attention layer to address
image and text inputs for appearance conditioning. In addition, we carefully
design the model architecture such that it can optionally integrate with
pre-trained image ControlNet modules for geometry visual conditions, without
needing of extra training overhead as opposed to prior methods. Experiments
show that with versatile multimodal conditioning mechanisms, Moonshot
demonstrates significant improvement on visual quality and temporal consistency
compared to existing models. In addition, the model can be easily repurposed
for a variety of generative applications, such as personalized video
generation, image animation and video editing, unveiling its potential to serve
as a fundamental architecture for controllable video generation. Models will be
made public on https://github.com/salesforce/LAVIS.