I2V-Adapter : Un adaptateur universel image-vidéo pour les modèles de diffusion vidéo
I2V-Adapter: A General Image-to-Video Adapter for Video Diffusion Models
December 27, 2023
Auteurs: Xun Guo, Mingwu Zheng, Liang Hou, Yuan Gao, Yufan Deng, Chongyang Ma, Weiming Hu, Zhengjun Zha, Haibin Huang, Pengfei Wan, Di Zhang
cs.AI
Résumé
Dans le domaine en évolution rapide de la génération de contenu numérique, l'accent s'est déplacé des modèles texte-à-image (T2I) vers des modèles de diffusion vidéo plus avancés, notamment texte-à-vidéo (T2V) et image-à-vidéo (I2V). Cet article aborde le défi complexe posé par I2V : convertir des images statiques en séquences vidéo dynamiques et réalistes tout en préservant la fidélité de l'image originale. Les méthodes traditionnelles impliquent généralement l'intégration d'images entières dans les processus de diffusion ou l'utilisation d'encodeurs pré-entraînés pour l'attention croisée. Cependant, ces approches nécessitent souvent de modifier les poids fondamentaux des modèles T2I, limitant ainsi leur réutilisabilité. Nous introduisons une solution novatrice, nommée I2V-Adapter, conçue pour surmonter ces limitations. Notre approche préserve l'intégrité structurelle des modèles T2I et leurs modules de mouvement inhérents. L'I2V-Adapter fonctionne en traitant les images vidéo bruitées en parallèle avec l'image d'entrée, en utilisant un module d'adaptation léger. Ce module agit comme un pont, reliant efficacement l'entrée au mécanisme d'auto-attention du modèle, préservant ainsi les détails spatiaux sans nécessiter de modifications structurelles au modèle T2I. De plus, I2V-Adapter ne nécessite qu'une fraction des paramètres des modèles conventionnels et assure la compatibilité avec les modèles T2I et les outils de contrôle existants, développés par la communauté. Nos résultats expérimentaux démontrent la capacité d'I2V-Adapter à produire des vidéos de haute qualité. Cette performance, associée à sa polyvalence et à son besoin réduit en paramètres entraînables, représente une avancée significative dans le domaine de la génération vidéo pilotée par l'IA, en particulier pour les applications créatives.
English
In the rapidly evolving domain of digital content generation, the focus has
shifted from text-to-image (T2I) models to more advanced video diffusion
models, notably text-to-video (T2V) and image-to-video (I2V). This paper
addresses the intricate challenge posed by I2V: converting static images into
dynamic, lifelike video sequences while preserving the original image fidelity.
Traditional methods typically involve integrating entire images into diffusion
processes or using pretrained encoders for cross attention. However, these
approaches often necessitate altering the fundamental weights of T2I models,
thereby restricting their reusability. We introduce a novel solution, namely
I2V-Adapter, designed to overcome such limitations. Our approach preserves the
structural integrity of T2I models and their inherent motion modules. The
I2V-Adapter operates by processing noised video frames in parallel with the
input image, utilizing a lightweight adapter module. This module acts as a
bridge, efficiently linking the input to the model's self-attention mechanism,
thus maintaining spatial details without requiring structural changes to the
T2I model. Moreover, I2V-Adapter requires only a fraction of the parameters of
conventional models and ensures compatibility with existing community-driven
T2I models and controlling tools. Our experimental results demonstrate
I2V-Adapter's capability to produce high-quality video outputs. This
performance, coupled with its versatility and reduced need for trainable
parameters, represents a substantial advancement in the field of AI-driven
video generation, particularly for creative applications.