Moonshot: Auf dem Weg zu kontrollierbarer Videogenerierung und -bearbeitung mit multimodalen Bedingungen

papers.abstract

Die meisten bestehenden Video-Diffusionsmodelle (VDMs) beschränken sich auf reine Textbedingungen. Dadurch mangelt es ihnen in der Regel an Kontrolle über das visuelle Erscheinungsbild und die geometrische Struktur der generierten Videos. Diese Arbeit stellt Moonshot vor, ein neues Videogenerierungsmodell, das gleichzeitig auf multimodale Eingaben von Bild und Text konditioniert. Das Modell basiert auf einem Kernmodul, dem sogenannten multimodalen Video-Block (MVB), das aus konventionellen raumzeitlichen Schichten zur Darstellung von Videomerkmalen und einer entkoppelten Cross-Attention-Schicht besteht, um Bild- und Texteingaben für die Erscheinungsbedingung zu verarbeiten. Darüber hinaus haben wir die Modellarchitektur sorgfältig so gestaltet, dass sie optional mit vortrainierten Image-ControlNet-Modulen für geometrische visuelle Bedingungen integriert werden kann, ohne wie bei früheren Methoden zusätzlichen Trainingsaufwand zu benötigen. Experimente zeigen, dass Moonshot durch vielseitige multimodale Konditionierungsmechanismen eine signifikante Verbesserung der visuellen Qualität und zeitlichen Konsistenz im Vergleich zu bestehenden Modellen aufweist. Darüber hinaus kann das Modell leicht für eine Vielzahl von generativen Anwendungen wie personalisierte Videogenerierung, Bildanimation und Videobearbeitung umfunktioniert werden, was sein Potenzial als grundlegende Architektur für kontrollierbare Videogenerierung offenbart. Die Modelle werden unter https://github.com/salesforce/LAVIS öffentlich zugänglich gemacht.

English

Most existing video diffusion models (VDMs) are limited to mere text conditions. Thereby, they are usually lacking in control over visual appearance and geometry structure of the generated videos. This work presents Moonshot, a new video generation model that conditions simultaneously on multimodal inputs of image and text. The model builts upon a core module, called multimodal video block (MVB), which consists of conventional spatialtemporal layers for representing video features, and a decoupled cross-attention layer to address image and text inputs for appearance conditioning. In addition, we carefully design the model architecture such that it can optionally integrate with pre-trained image ControlNet modules for geometry visual conditions, without needing of extra training overhead as opposed to prior methods. Experiments show that with versatile multimodal conditioning mechanisms, Moonshot demonstrates significant improvement on visual quality and temporal consistency compared to existing models. In addition, the model can be easily repurposed for a variety of generative applications, such as personalized video generation, image animation and video editing, unveiling its potential to serve as a fundamental architecture for controllable video generation. Models will be made public on https://github.com/salesforce/LAVIS.

Moonshot: Auf dem Weg zu kontrollierbarer Videogenerierung und -bearbeitung mit multimodalen Bedingungen

Moonshot: Towards Controllable Video Generation and Editing with Multimodal Conditions

papers.abstract

Support