I2V-Adapter: Un Adaptador General de Imagen a Video para Modelos de Difusión de Video
I2V-Adapter: A General Image-to-Video Adapter for Video Diffusion Models
December 27, 2023
Autores: Xun Guo, Mingwu Zheng, Liang Hou, Yuan Gao, Yufan Deng, Chongyang Ma, Weiming Hu, Zhengjun Zha, Haibin Huang, Pengfei Wan, Di Zhang
cs.AI
Resumen
En el ámbito en rápida evolución de la generación de contenido digital, el enfoque ha pasado de los modelos de texto a imagen (T2I) a modelos de difusión de video más avanzados, específicamente los de texto a video (T2V) e imagen a video (I2V). Este artículo aborda el complejo desafío planteado por I2V: convertir imágenes estáticas en secuencias de video dinámicas y realistas mientras se preserva la fidelidad de la imagen original. Los métodos tradicionales suelen implicar la integración de imágenes completas en procesos de difusión o el uso de codificadores preentrenados para la atención cruzada. Sin embargo, estos enfoques a menudo requieren modificar los pesos fundamentales de los modelos T2I, lo que limita su reutilización. Presentamos una solución novedosa, denominada I2V-Adapter, diseñada para superar estas limitaciones. Nuestro enfoque preserva la integridad estructural de los modelos T2I y sus módulos de movimiento inherentes. El I2V-Adapter opera procesando fotogramas de video ruidosos en paralelo con la imagen de entrada, utilizando un módulo adaptador ligero. Este módulo actúa como un puente, conectando eficientemente la entrada al mecanismo de auto-atención del modelo, manteniendo así los detalles espaciales sin requerir cambios estructurales en el modelo T2I. Además, I2V-Adapter requiere solo una fracción de los parámetros de los modelos convencionales y garantiza compatibilidad con los modelos T2I y herramientas de control impulsadas por la comunidad existentes. Nuestros resultados experimentales demuestran la capacidad de I2V-Adapter para producir salidas de video de alta calidad. Este rendimiento, junto con su versatilidad y la reducida necesidad de parámetros entrenables, representa un avance significativo en el campo de la generación de video impulsada por IA, particularmente para aplicaciones creativas.
English
In the rapidly evolving domain of digital content generation, the focus has
shifted from text-to-image (T2I) models to more advanced video diffusion
models, notably text-to-video (T2V) and image-to-video (I2V). This paper
addresses the intricate challenge posed by I2V: converting static images into
dynamic, lifelike video sequences while preserving the original image fidelity.
Traditional methods typically involve integrating entire images into diffusion
processes or using pretrained encoders for cross attention. However, these
approaches often necessitate altering the fundamental weights of T2I models,
thereby restricting their reusability. We introduce a novel solution, namely
I2V-Adapter, designed to overcome such limitations. Our approach preserves the
structural integrity of T2I models and their inherent motion modules. The
I2V-Adapter operates by processing noised video frames in parallel with the
input image, utilizing a lightweight adapter module. This module acts as a
bridge, efficiently linking the input to the model's self-attention mechanism,
thus maintaining spatial details without requiring structural changes to the
T2I model. Moreover, I2V-Adapter requires only a fraction of the parameters of
conventional models and ensures compatibility with existing community-driven
T2I models and controlling tools. Our experimental results demonstrate
I2V-Adapter's capability to produce high-quality video outputs. This
performance, coupled with its versatility and reduced need for trainable
parameters, represents a substantial advancement in the field of AI-driven
video generation, particularly for creative applications.