I2V-Adapter: Un Adattatore Generale da Immagine a Video per Modelli di Diffusione Video
I2V-Adapter: A General Image-to-Video Adapter for Video Diffusion Models
December 27, 2023
Autori: Xun Guo, Mingwu Zheng, Liang Hou, Yuan Gao, Yufan Deng, Chongyang Ma, Weiming Hu, Zhengjun Zha, Haibin Huang, Pengfei Wan, Di Zhang
cs.AI
Abstract
Nel dominio in rapida evoluzione della generazione di contenuti digitali, l'attenzione si è spostata dai modelli testo-immagine (T2I) verso modelli di diffusione video più avanzati, in particolare testo-video (T2V) e immagine-video (I2V). Questo articolo affronta la complessa sfida posta da I2V: convertire immagini statiche in sequenze video dinamiche e realistiche preservando la fedeltà dell'immagine originale. I metodi tradizionali prevedono tipicamente l'integrazione dell'intera immagine nei processi di diffusione o l'uso di encoder pre-addestrati per l'attenzione incrociata. Tuttavia, questi approcci spesso richiedono di alterare i pesi fondamentali dei modelli T2I, limitandone così la riutilizzabilità. Introduciamo una soluzione innovativa, denominata I2V-Adapter, progettata per superare tali limitazioni. Il nostro approccio preserva l'integrità strutturale dei modelli T2I e i loro moduli di movimento intrinseci. L'I2V-Adapter opera elaborando i frame video rumorosi in parallelo con l'immagine di input, utilizzando un modulo adattatore leggero. Questo modulo funge da ponte, collegando in modo efficiente l'input al meccanismo di auto-attenzione del modello, mantenendo così i dettagli spaziali senza richiedere modifiche strutturali al modello T2I. Inoltre, I2V-Adapter richiede solo una frazione dei parametri dei modelli convenzionali e garantisce la compatibilità con i modelli T2I e gli strumenti di controllo esistenti guidati dalla comunità. I nostri risultati sperimentali dimostrano la capacità di I2V-Adapter di produrre output video di alta qualità. Questa performance, unita alla sua versatilità e al ridotto bisogno di parametri addestrabili, rappresenta un progresso significativo nel campo della generazione video guidata dall'IA, in particolare per applicazioni creative.
English
In the rapidly evolving domain of digital content generation, the focus has
shifted from text-to-image (T2I) models to more advanced video diffusion
models, notably text-to-video (T2V) and image-to-video (I2V). This paper
addresses the intricate challenge posed by I2V: converting static images into
dynamic, lifelike video sequences while preserving the original image fidelity.
Traditional methods typically involve integrating entire images into diffusion
processes or using pretrained encoders for cross attention. However, these
approaches often necessitate altering the fundamental weights of T2I models,
thereby restricting their reusability. We introduce a novel solution, namely
I2V-Adapter, designed to overcome such limitations. Our approach preserves the
structural integrity of T2I models and their inherent motion modules. The
I2V-Adapter operates by processing noised video frames in parallel with the
input image, utilizing a lightweight adapter module. This module acts as a
bridge, efficiently linking the input to the model's self-attention mechanism,
thus maintaining spatial details without requiring structural changes to the
T2I model. Moreover, I2V-Adapter requires only a fraction of the parameters of
conventional models and ensures compatibility with existing community-driven
T2I models and controlling tools. Our experimental results demonstrate
I2V-Adapter's capability to produce high-quality video outputs. This
performance, coupled with its versatility and reduced need for trainable
parameters, represents a substantial advancement in the field of AI-driven
video generation, particularly for creative applications.