I2V-Adapter: Универсальный адаптер для преобразования изображений в видео в моделях видеодиффузии
I2V-Adapter: A General Image-to-Video Adapter for Video Diffusion Models
December 27, 2023
Авторы: Xun Guo, Mingwu Zheng, Liang Hou, Yuan Gao, Yufan Deng, Chongyang Ma, Weiming Hu, Zhengjun Zha, Haibin Huang, Pengfei Wan, Di Zhang
cs.AI
Аннотация
В быстро развивающейся области генерации цифрового контента внимание сместилось с моделей преобразования текста в изображение (T2I) на более продвинутые модели диффузии видео, в частности, преобразование текста в видео (T2V) и изображения в видео (I2V). В данной статье рассматривается сложная задача, связанная с I2V: преобразование статических изображений в динамичные, реалистичные видеопоследовательности с сохранением исходной точности изображения. Традиционные методы обычно предполагают интеграцию всего изображения в процессы диффузии или использование предобученных энкодеров для кросс-внимания. Однако такие подходы часто требуют изменения базовых весов моделей T2I, что ограничивает их повторное использование. Мы представляем новое решение, а именно I2V-Adapter, разработанное для преодоления этих ограничений. Наш подход сохраняет структурную целостность моделей T2I и их встроенные модули движения. I2V-Adapter работает, обрабатывая зашумленные кадры видео параллельно с входным изображением, используя легковесный адаптерный модуль. Этот модуль служит мостом, эффективно связывая входные данные с механизмом самовнимания модели, сохраняя пространственные детали без необходимости структурных изменений в модели T2I. Более того, I2V-Adapter требует лишь малой доли параметров по сравнению с традиционными моделями и обеспечивает совместимость с существующими моделями T2I и инструментами управления, разработанными сообществом. Наши экспериментальные результаты демонстрируют способность I2V-Adapter генерировать высококачественные видеовыходы. Такая производительность, в сочетании с универсальностью и сниженной потребностью в обучаемых параметрах, представляет собой значительный прогресс в области генерации видео с использованием ИИ, особенно для творческих приложений.
English
In the rapidly evolving domain of digital content generation, the focus has
shifted from text-to-image (T2I) models to more advanced video diffusion
models, notably text-to-video (T2V) and image-to-video (I2V). This paper
addresses the intricate challenge posed by I2V: converting static images into
dynamic, lifelike video sequences while preserving the original image fidelity.
Traditional methods typically involve integrating entire images into diffusion
processes or using pretrained encoders for cross attention. However, these
approaches often necessitate altering the fundamental weights of T2I models,
thereby restricting their reusability. We introduce a novel solution, namely
I2V-Adapter, designed to overcome such limitations. Our approach preserves the
structural integrity of T2I models and their inherent motion modules. The
I2V-Adapter operates by processing noised video frames in parallel with the
input image, utilizing a lightweight adapter module. This module acts as a
bridge, efficiently linking the input to the model's self-attention mechanism,
thus maintaining spatial details without requiring structural changes to the
T2I model. Moreover, I2V-Adapter requires only a fraction of the parameters of
conventional models and ensures compatibility with existing community-driven
T2I models and controlling tools. Our experimental results demonstrate
I2V-Adapter's capability to produce high-quality video outputs. This
performance, coupled with its versatility and reduced need for trainable
parameters, represents a substantial advancement in the field of AI-driven
video generation, particularly for creative applications.