I2V-Adapter: Een universele afbeelding-naar-video-adapter voor videodiffusiemodellen
I2V-Adapter: A General Image-to-Video Adapter for Video Diffusion Models
December 27, 2023
Auteurs: Xun Guo, Mingwu Zheng, Liang Hou, Yuan Gao, Yufan Deng, Chongyang Ma, Weiming Hu, Zhengjun Zha, Haibin Huang, Pengfei Wan, Di Zhang
cs.AI
Samenvatting
In het snel evoluerende domein van digitale contentgeneratie is de aandacht
verschoven van tekst-naar-beeld (T2I) modellen naar meer geavanceerde
videodiffusiemodellen, met name tekst-naar-video (T2V) en beeld-naar-video
(I2V). Dit artikel behandelt de complexe uitdaging die I2V met zich meebrengt:
het omzetten van statische afbeeldingen in dynamische, levensechte videosequenties
terwijl de oorspronkelijke beeldkwaliteit behouden blijft. Traditionele methoden
betreffen doorgaans het integreren van volledige afbeeldingen in diffusieprocessen
of het gebruik van vooraf getrainde encoders voor kruisattentie. Deze benaderingen
vereisen echter vaak aanpassingen aan de fundamentele gewichten van T2I-modellen,
wat hun herbruikbaarheid beperkt. Wij introduceren een nieuwe oplossing, genaamd
I2V-Adapter, die ontworpen is om dergelijke beperkingen te overwinnen. Onze
aanpak behoudt de structurele integriteit van T2I-modellen en hun inherente
bewegingsmodules. De I2V-Adapter werkt door geruisde videoframes parallel te
verwerken met de invoerafbeelding, waarbij gebruik wordt gemaakt van een lichtgewicht
adaptermodule. Deze module fungeert als een brug, die de invoer efficiënt verbindt
met het zelfattentiemechanisme van het model, waardoor ruimtelijke details behouden
blijven zonder structurele wijzigingen aan het T2I-model te vereisen. Bovendien
vereist I2V-Adapter slechts een fractie van de parameters van conventionele modellen
en zorgt het voor compatibiliteit met bestaande, door de gemeenschap ontwikkelde
T2I-modellen en controle-instrumenten. Onze experimentele resultaten tonen aan
dat I2V-Adapter in staat is hoogwaardige video-uitvoer te produceren. Deze prestaties,
gecombineerd met de veelzijdigheid en de verminderde behoefte aan trainbare parameters,
vertegenwoordigen een aanzienlijke vooruitgang op het gebied van AI-gestuurde
videogeneratie, met name voor creatieve toepassingen.
English
In the rapidly evolving domain of digital content generation, the focus has
shifted from text-to-image (T2I) models to more advanced video diffusion
models, notably text-to-video (T2V) and image-to-video (I2V). This paper
addresses the intricate challenge posed by I2V: converting static images into
dynamic, lifelike video sequences while preserving the original image fidelity.
Traditional methods typically involve integrating entire images into diffusion
processes or using pretrained encoders for cross attention. However, these
approaches often necessitate altering the fundamental weights of T2I models,
thereby restricting their reusability. We introduce a novel solution, namely
I2V-Adapter, designed to overcome such limitations. Our approach preserves the
structural integrity of T2I models and their inherent motion modules. The
I2V-Adapter operates by processing noised video frames in parallel with the
input image, utilizing a lightweight adapter module. This module acts as a
bridge, efficiently linking the input to the model's self-attention mechanism,
thus maintaining spatial details without requiring structural changes to the
T2I model. Moreover, I2V-Adapter requires only a fraction of the parameters of
conventional models and ensures compatibility with existing community-driven
T2I models and controlling tools. Our experimental results demonstrate
I2V-Adapter's capability to produce high-quality video outputs. This
performance, coupled with its versatility and reduced need for trainable
parameters, represents a substantial advancement in the field of AI-driven
video generation, particularly for creative applications.