I2V-Adapter: 비디오 확산 모델을 위한 범용 이미지-비디오 어댑터
I2V-Adapter: A General Image-to-Video Adapter for Video Diffusion Models
December 27, 2023
저자: Xun Guo, Mingwu Zheng, Liang Hou, Yuan Gao, Yufan Deng, Chongyang Ma, Weiming Hu, Zhengjun Zha, Haibin Huang, Pengfei Wan, Di Zhang
cs.AI
초록
급변하는 디지털 콘텐츠 생성 분야에서, 텍스트-이미지(T2I) 모델에서 더욱 진보된 비디오 디퓨전 모델, 특히 텍스트-비디오(T2V) 및 이미지-비디오(I2V) 모델로 초점이 이동하고 있습니다. 본 논문은 I2V가 제기하는 복잡한 문제, 즉 정적 이미지를 원본 이미지의 충실도를 유지하면서 생동감 있는 동영상 시퀀스로 변환하는 과제를 다룹니다. 기존 방법들은 일반적으로 전체 이미지를 디퓨전 프로세스에 통합하거나 사전 학습된 인코더를 교차 주의(cross attention)에 사용합니다. 그러나 이러한 접근 방식은 종종 T2I 모델의 기본 가중치를 변경해야 하므로 재사용성을 제한합니다. 우리는 이러한 한계를 극복하기 위한 새로운 솔루션인 I2V-Adapter를 소개합니다. 우리의 접근 방식은 T2I 모델의 구조적 무결성과 내재된 모션 모듈을 보존합니다. I2V-Adapter는 경량 어댑터 모듈을 활용하여 입력 이미지와 함께 노이즈가 추가된 비디오 프레임을 병렬로 처리합니다. 이 모듈은 입력을 모델의 자기 주의(self-attention) 메커니즘에 효율적으로 연결하는 다리 역할을 하여, T2I 모델의 구조적 변경 없이 공간적 세부 사항을 유지합니다. 또한, I2V-Adapter는 기존 모델의 파라미터 수의 일부만 필요로 하며, 기존의 커뮤니티 주도 T2I 모델 및 제어 도구와의 호환성을 보장합니다. 우리의 실험 결과는 I2V-Adapter가 고품질 비디오 출력을 생성할 수 있는 능력을 입증합니다. 이러한 성능과 더불어, I2V-Adapter의 다재다능성과 학습 가능한 파라미터의 감소는 특히 창의적인 응용 분야에서 AI 기반 비디오 생성 분야의 상당한 진전을 나타냅니다.
English
In the rapidly evolving domain of digital content generation, the focus has
shifted from text-to-image (T2I) models to more advanced video diffusion
models, notably text-to-video (T2V) and image-to-video (I2V). This paper
addresses the intricate challenge posed by I2V: converting static images into
dynamic, lifelike video sequences while preserving the original image fidelity.
Traditional methods typically involve integrating entire images into diffusion
processes or using pretrained encoders for cross attention. However, these
approaches often necessitate altering the fundamental weights of T2I models,
thereby restricting their reusability. We introduce a novel solution, namely
I2V-Adapter, designed to overcome such limitations. Our approach preserves the
structural integrity of T2I models and their inherent motion modules. The
I2V-Adapter operates by processing noised video frames in parallel with the
input image, utilizing a lightweight adapter module. This module acts as a
bridge, efficiently linking the input to the model's self-attention mechanism,
thus maintaining spatial details without requiring structural changes to the
T2I model. Moreover, I2V-Adapter requires only a fraction of the parameters of
conventional models and ensures compatibility with existing community-driven
T2I models and controlling tools. Our experimental results demonstrate
I2V-Adapter's capability to produce high-quality video outputs. This
performance, coupled with its versatility and reduced need for trainable
parameters, represents a substantial advancement in the field of AI-driven
video generation, particularly for creative applications.