Moonshot: К управляемой генерации и редактированию видео с использованием мультимодальных условий
Moonshot: Towards Controllable Video Generation and Editing with Multimodal Conditions
January 3, 2024
Авторы: David Junhao Zhang, Dongxu Li, Hung Le, Mike Zheng Shou, Caiming Xiong, Doyen Sahoo
cs.AI
Аннотация
Большинство существующих моделей диффузии видео (VDMs) ограничены лишь текстовыми условиями. Вследствие этого они обычно недостаточно контролируют визуальный облик и геометрическую структуру генерируемых видео. В данной работе представлена модель Moonshot, новая модель генерации видео, которая одновременно учитывает мультимодальные входные данные изображения и текста. Модель основана на ключевом модуле, называемом мультимодальный видео-блок (MVB), который состоит из традиционных пространственно-временных слоев для представления видео-признаков и разделенного слоя кросс-внимания для обработки входных данных изображения и текста с целью управления визуальным обликом. Кроме того, мы тщательно разработали архитектуру модели таким образом, чтобы она могла опционально интегрироваться с предварительно обученными модулями ControlNet для геометрических визуальных условий, не требуя дополнительных затрат на обучение, в отличие от предыдущих методов. Эксперименты показывают, что благодаря универсальным механизмам мультимодального управления Moonshot демонстрирует значительное улучшение визуального качества и временной согласованности по сравнению с существующими моделями. Кроме того, модель может быть легко адаптирована для различных генеративных приложений, таких как персонализированная генерация видео, анимация изображений и редактирование видео, раскрывая её потенциал в качестве фундаментальной архитектуры для управляемой генерации видео. Модели будут опубликованы на https://github.com/salesforce/LAVIS.
English
Most existing video diffusion models (VDMs) are limited to mere text
conditions. Thereby, they are usually lacking in control over visual appearance
and geometry structure of the generated videos. This work presents Moonshot, a
new video generation model that conditions simultaneously on multimodal inputs
of image and text. The model builts upon a core module, called multimodal video
block (MVB), which consists of conventional spatialtemporal layers for
representing video features, and a decoupled cross-attention layer to address
image and text inputs for appearance conditioning. In addition, we carefully
design the model architecture such that it can optionally integrate with
pre-trained image ControlNet modules for geometry visual conditions, without
needing of extra training overhead as opposed to prior methods. Experiments
show that with versatile multimodal conditioning mechanisms, Moonshot
demonstrates significant improvement on visual quality and temporal consistency
compared to existing models. In addition, the model can be easily repurposed
for a variety of generative applications, such as personalized video
generation, image animation and video editing, unveiling its potential to serve
as a fundamental architecture for controllable video generation. Models will be
made public on https://github.com/salesforce/LAVIS.