pOps: 사진 기반 확산 연산자
pOps: Photo-Inspired Diffusion Operators
June 3, 2024
저자: Elad Richardson, Yuval Alaluf, Ali Mahdavi-Amiri, Daniel Cohen-Or
cs.AI
초록
텍스트 기반 이미지 생성은 텍스트 설명으로부터 시각적 콘텐츠를 창조할 수 있게 합니다. 그러나 특정 시각적 개념은 언어만으로는 효과적으로 전달하기 어렵습니다. 이로 인해 IP-Adapter와 같은 방법을 통해 CLIP 이미지 임베딩 공간을 더 시각적 작업에 활용하려는 관심이 다시 부각되고 있습니다. 흥미롭게도, CLIP 이미지 임베딩 공간은 의미론적으로 의미 있는 것으로 나타났으며, 이 공간 내에서의 선형 연산은 의미론적으로 의미 있는 결과를 생성합니다. 그러나 이러한 연산의 구체적인 의미는 이미지에 따라 예측 불가능하게 달라질 수 있습니다. 이러한 잠재력을 활용하기 위해, 우리는 CLIP 이미지 임베딩에 직접 특정 의미론적 연산자를 학습시키는 프레임워크인 pOps를 소개합니다. 각 pOps 연산자는 사전 학습된 Diffusion Prior 모델을 기반으로 구축됩니다. Diffusion Prior 모델은 원래 텍스트 임베딩과 이미지 임베딩 간의 매핑을 위해 학습되었지만, 우리는 새로운 입력 조건을 수용하도록 조정될 수 있으며, 이를 통해 diffusion 연산자를 생성할 수 있음을 보여줍니다. 이미지 임베딩에 직접 작업하는 것은 의미론적 연산을 학습하는 능력을 향상시킬 뿐만 아니라, 필요할 때 텍스트 CLIP 손실을 추가적인 감독으로 직접 사용할 수 있게 합니다. 우리는 pOps가 다양한 의미론적 의미를 가진 사진에서 영감을 받은 연산자를 학습하는 데 사용될 수 있음을 보여주며, 제안된 접근 방식의 의미론적 다양성과 잠재력을 강조합니다.
English
Text-guided image generation enables the creation of visual content from
textual descriptions. However, certain visual concepts cannot be effectively
conveyed through language alone. This has sparked a renewed interest in
utilizing the CLIP image embedding space for more visually-oriented tasks
through methods such as IP-Adapter. Interestingly, the CLIP image embedding
space has been shown to be semantically meaningful, where linear operations
within this space yield semantically meaningful results. Yet, the specific
meaning of these operations can vary unpredictably across different images. To
harness this potential, we introduce pOps, a framework that trains specific
semantic operators directly on CLIP image embeddings. Each pOps operator is
built upon a pretrained Diffusion Prior model. While the Diffusion Prior model
was originally trained to map between text embeddings and image embeddings, we
demonstrate that it can be tuned to accommodate new input conditions, resulting
in a diffusion operator. Working directly over image embeddings not only
improves our ability to learn semantic operations but also allows us to
directly use a textual CLIP loss as an additional supervision when needed. We
show that pOps can be used to learn a variety of photo-inspired operators with
distinct semantic meanings, highlighting the semantic diversity and potential
of our proposed approach.Summary
AI-Generated Summary