IP-Adapter: 텍스트-이미지 확산 모델을 위한 텍스트 호환 이미지 프롬프트 어댑터
IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models
August 13, 2023
저자: Hu Ye, Jun Zhang, Sibo Liu, Xiao Han, Wei Yang
cs.AI
초록
최근 몇 년 동안 대규모 텍스트-이미지 확산 모델의 강력한 능력이 인상적인 생성 능력을 통해 고품질 이미지를 만들어내는 것으로 입증되었습니다. 그러나 텍스트 프롬프트만을 사용하여 원하는 이미지를 생성하는 것은 매우 까다로운 작업이며, 종종 복잡한 프롬프트 엔지니어링이 필요합니다. 텍스트 프롬프트의 대안으로 이미지 프롬프트가 있으며, 이는 "한 장의 그림이 천 마디 말보다 낫다"는 속담과도 일맥상통합니다. 기존의 사전 학습된 모델을 직접 미세 조정하는 방법은 효과적이지만, 대규모 컴퓨팅 자원이 필요하며 다른 기본 모델, 텍스트 프롬프트, 구조적 제어와 호환되지 않습니다. 본 논문에서는 사전 학습된 텍스트-이미지 확산 모델에 이미지 프롬프트 기능을 제공하기 위한 효과적이고 경량화된 어댑터인 IP-Adapter를 제안합니다. 우리의 IP-Adapter의 핵심 설계는 텍스트 특징과 이미지 특징을 위한 교차 주의(cross-attention) 계층을 분리하는 분리된 교차 주의 메커니즘입니다. 우리의 방법은 단순하지만, 단 22M 파라미터만으로도 완전히 미세 조정된 이미지 프롬프트 모델과 비슷하거나 더 나은 성능을 달성할 수 있습니다. 사전 학습된 확산 모델을 고정함으로써, 제안된 IP-Adapter는 동일한 기본 모델에서 미세 조정된 다른 사용자 정의 모델뿐만 아니라 기존의 제어 가능한 도구를 사용한 제어 가능한 생성에도 일반화될 수 있습니다. 분리된 교차 주의 전략의 이점으로, 이미지 프롬프트는 텍스트 프롬프트와도 잘 작동하여 다중 모드 이미지 생성을 달성할 수 있습니다. 프로젝트 페이지는 https://ip-adapter.github.io에서 확인할 수 있습니다.
English
Recent years have witnessed the strong power of large text-to-image diffusion
models for the impressive generative capability to create high-fidelity images.
However, it is very tricky to generate desired images using only text prompt as
it often involves complex prompt engineering. An alternative to text prompt is
image prompt, as the saying goes: "an image is worth a thousand words".
Although existing methods of direct fine-tuning from pretrained models are
effective, they require large computing resources and are not compatible with
other base models, text prompt, and structural controls. In this paper, we
present IP-Adapter, an effective and lightweight adapter to achieve image
prompt capability for the pretrained text-to-image diffusion models. The key
design of our IP-Adapter is decoupled cross-attention mechanism that separates
cross-attention layers for text features and image features. Despite the
simplicity of our method, an IP-Adapter with only 22M parameters can achieve
comparable or even better performance to a fully fine-tuned image prompt model.
As we freeze the pretrained diffusion model, the proposed IP-Adapter can be
generalized not only to other custom models fine-tuned from the same base
model, but also to controllable generation using existing controllable tools.
With the benefit of the decoupled cross-attention strategy, the image prompt
can also work well with the text prompt to achieve multimodal image generation.
The project page is available at https://ip-adapter.github.io.