ChatPaper.aiChatPaper

I2V-Adapter: Um Adaptador Geral de Imagem para Vídeo para Modelos de Difusão de Vídeo

I2V-Adapter: A General Image-to-Video Adapter for Video Diffusion Models

December 27, 2023
Autores: Xun Guo, Mingwu Zheng, Liang Hou, Yuan Gao, Yufan Deng, Chongyang Ma, Weiming Hu, Zhengjun Zha, Haibin Huang, Pengfei Wan, Di Zhang
cs.AI

Resumo

No domínio em rápida evolução da geração de conteúdo digital, o foco mudou dos modelos de texto para imagem (T2I) para modelos de difusão de vídeo mais avançados, notadamente texto para vídeo (T2V) e imagem para vídeo (I2V). Este artigo aborda o desafio complexo apresentado pelo I2V: converter imagens estáticas em sequências de vídeo dinâmicas e realistas, preservando a fidelidade da imagem original. Métodos tradicionais geralmente envolvem a integração de imagens inteiras em processos de difusão ou o uso de codificadores pré-treinados para atenção cruzada. No entanto, essas abordagens frequentemente exigem a alteração dos pesos fundamentais dos modelos T2I, limitando assim sua reutilização. Introduzimos uma solução inovadora, denominada I2V-Adapter, projetada para superar tais limitações. Nossa abordagem preserva a integridade estrutural dos modelos T2I e seus módulos de movimento inerentes. O I2V-Adapter opera processando quadros de vídeo ruidosos em paralelo com a imagem de entrada, utilizando um módulo adaptador leve. Este módulo atua como uma ponte, conectando eficientemente a entrada ao mecanismo de auto-atenção do modelo, mantendo assim os detalhes espaciais sem exigir alterações estruturais no modelo T2I. Além disso, o I2V-Adapter requer apenas uma fração dos parâmetros dos modelos convencionais e garante compatibilidade com os modelos T2I e ferramentas de controle existentes, impulsionados pela comunidade. Nossos resultados experimentais demonstram a capacidade do I2V-Adapter de produzir saídas de vídeo de alta qualidade. Esse desempenho, aliado à sua versatilidade e à redução da necessidade de parâmetros treináveis, representa um avanço substancial no campo da geração de vídeo impulsionada por IA, particularmente para aplicações criativas.
English
In the rapidly evolving domain of digital content generation, the focus has shifted from text-to-image (T2I) models to more advanced video diffusion models, notably text-to-video (T2V) and image-to-video (I2V). This paper addresses the intricate challenge posed by I2V: converting static images into dynamic, lifelike video sequences while preserving the original image fidelity. Traditional methods typically involve integrating entire images into diffusion processes or using pretrained encoders for cross attention. However, these approaches often necessitate altering the fundamental weights of T2I models, thereby restricting their reusability. We introduce a novel solution, namely I2V-Adapter, designed to overcome such limitations. Our approach preserves the structural integrity of T2I models and their inherent motion modules. The I2V-Adapter operates by processing noised video frames in parallel with the input image, utilizing a lightweight adapter module. This module acts as a bridge, efficiently linking the input to the model's self-attention mechanism, thus maintaining spatial details without requiring structural changes to the T2I model. Moreover, I2V-Adapter requires only a fraction of the parameters of conventional models and ensures compatibility with existing community-driven T2I models and controlling tools. Our experimental results demonstrate I2V-Adapter's capability to produce high-quality video outputs. This performance, coupled with its versatility and reduced need for trainable parameters, represents a substantial advancement in the field of AI-driven video generation, particularly for creative applications.
PDF141February 7, 2026