Moonshot: К управляемой генерации и редактированию видео с использованием мультимодальных условий

Аннотация

Большинство существующих моделей диффузии видео (VDMs) ограничены лишь текстовыми условиями. Вследствие этого они обычно недостаточно контролируют визуальный облик и геометрическую структуру генерируемых видео. В данной работе представлена модель Moonshot, новая модель генерации видео, которая одновременно учитывает мультимодальные входные данные изображения и текста. Модель основана на ключевом модуле, называемом мультимодальный видео-блок (MVB), который состоит из традиционных пространственно-временных слоев для представления видео-признаков и разделенного слоя кросс-внимания для обработки входных данных изображения и текста с целью управления визуальным обликом. Кроме того, мы тщательно разработали архитектуру модели таким образом, чтобы она могла опционально интегрироваться с предварительно обученными модулями ControlNet для геометрических визуальных условий, не требуя дополнительных затрат на обучение, в отличие от предыдущих методов. Эксперименты показывают, что благодаря универсальным механизмам мультимодального управления Moonshot демонстрирует значительное улучшение визуального качества и временной согласованности по сравнению с существующими моделями. Кроме того, модель может быть легко адаптирована для различных генеративных приложений, таких как персонализированная генерация видео, анимация изображений и редактирование видео, раскрывая её потенциал в качестве фундаментальной архитектуры для управляемой генерации видео. Модели будут опубликованы на https://github.com/salesforce/LAVIS.

English

Most existing video diffusion models (VDMs) are limited to mere text conditions. Thereby, they are usually lacking in control over visual appearance and geometry structure of the generated videos. This work presents Moonshot, a new video generation model that conditions simultaneously on multimodal inputs of image and text. The model builts upon a core module, called multimodal video block (MVB), which consists of conventional spatialtemporal layers for representing video features, and a decoupled cross-attention layer to address image and text inputs for appearance conditioning. In addition, we carefully design the model architecture such that it can optionally integrate with pre-trained image ControlNet modules for geometry visual conditions, without needing of extra training overhead as opposed to prior methods. Experiments show that with versatile multimodal conditioning mechanisms, Moonshot demonstrates significant improvement on visual quality and temporal consistency compared to existing models. In addition, the model can be easily repurposed for a variety of generative applications, such as personalized video generation, image animation and video editing, unveiling its potential to serve as a fundamental architecture for controllable video generation. Models will be made public on https://github.com/salesforce/LAVIS.

Moonshot: К управляемой генерации и редактированию видео с использованием мультимодальных условий

Moonshot: Towards Controllable Video Generation and Editing with Multimodal Conditions

Аннотация

Support