I2V-Adapter: Un Adattatore Generale da Immagine a Video per Modelli di Diffusione Video

Abstract

Nel dominio in rapida evoluzione della generazione di contenuti digitali, l'attenzione si è spostata dai modelli testo-immagine (T2I) verso modelli di diffusione video più avanzati, in particolare testo-video (T2V) e immagine-video (I2V). Questo articolo affronta la complessa sfida posta da I2V: convertire immagini statiche in sequenze video dinamiche e realistiche preservando la fedeltà dell'immagine originale. I metodi tradizionali prevedono tipicamente l'integrazione dell'intera immagine nei processi di diffusione o l'uso di encoder pre-addestrati per l'attenzione incrociata. Tuttavia, questi approcci spesso richiedono di alterare i pesi fondamentali dei modelli T2I, limitandone così la riutilizzabilità. Introduciamo una soluzione innovativa, denominata I2V-Adapter, progettata per superare tali limitazioni. Il nostro approccio preserva l'integrità strutturale dei modelli T2I e i loro moduli di movimento intrinseci. L'I2V-Adapter opera elaborando i frame video rumorosi in parallelo con l'immagine di input, utilizzando un modulo adattatore leggero. Questo modulo funge da ponte, collegando in modo efficiente l'input al meccanismo di auto-attenzione del modello, mantenendo così i dettagli spaziali senza richiedere modifiche strutturali al modello T2I. Inoltre, I2V-Adapter richiede solo una frazione dei parametri dei modelli convenzionali e garantisce la compatibilità con i modelli T2I e gli strumenti di controllo esistenti guidati dalla comunità. I nostri risultati sperimentali dimostrano la capacità di I2V-Adapter di produrre output video di alta qualità. Questa performance, unita alla sua versatilità e al ridotto bisogno di parametri addestrabili, rappresenta un progresso significativo nel campo della generazione video guidata dall'IA, in particolare per applicazioni creative.

English

In the rapidly evolving domain of digital content generation, the focus has shifted from text-to-image (T2I) models to more advanced video diffusion models, notably text-to-video (T2V) and image-to-video (I2V). This paper addresses the intricate challenge posed by I2V: converting static images into dynamic, lifelike video sequences while preserving the original image fidelity. Traditional methods typically involve integrating entire images into diffusion processes or using pretrained encoders for cross attention. However, these approaches often necessitate altering the fundamental weights of T2I models, thereby restricting their reusability. We introduce a novel solution, namely I2V-Adapter, designed to overcome such limitations. Our approach preserves the structural integrity of T2I models and their inherent motion modules. The I2V-Adapter operates by processing noised video frames in parallel with the input image, utilizing a lightweight adapter module. This module acts as a bridge, efficiently linking the input to the model's self-attention mechanism, thus maintaining spatial details without requiring structural changes to the T2I model. Moreover, I2V-Adapter requires only a fraction of the parameters of conventional models and ensures compatibility with existing community-driven T2I models and controlling tools. Our experimental results demonstrate I2V-Adapter's capability to produce high-quality video outputs. This performance, coupled with its versatility and reduced need for trainable parameters, represents a substantial advancement in the field of AI-driven video generation, particularly for creative applications.

I2V-Adapter: Un Adattatore Generale da Immagine a Video per Modelli di Diffusione Video

I2V-Adapter: A General Image-to-Video Adapter for Video Diffusion Models

Abstract

Support