ChatPaper.aiChatPaper

pOps:写真インスパイアード拡散演算子

pOps: Photo-Inspired Diffusion Operators

June 3, 2024
著者: Elad Richardson, Yuval Alaluf, Ali Mahdavi-Amiri, Daniel Cohen-Or
cs.AI

要旨

テキストガイド画像生成は、テキスト記述から視覚コンテンツを作成することを可能にします。しかし、一部の視覚的概念は言語だけでは効果的に伝えることができません。これにより、IP-Adapterのような手法を通じて、より視覚指向のタスクにCLIP画像埋め込み空間を活用する新たな関心が高まっています。興味深いことに、CLIP画像埋め込み空間は意味的に有意義であることが示されており、この空間内での線形操作は意味的に有意義な結果をもたらします。ただし、これらの操作の具体的な意味は、異なる画像間で予測不可能に変化する可能性があります。この可能性を活用するため、我々はpOpsを導入します。これは、CLIP画像埋め込み上で特定の意味的演算子を直接訓練するフレームワークです。各pOps演算子は、事前訓練されたDiffusion Priorモデルに基づいて構築されています。Diffusion Priorモデルは元々、テキスト埋め込みと画像埋め込みの間のマッピングを訓練するために設計されましたが、新しい入力条件に対応するように調整できることを示し、これにより拡散演算子が得られます。画像埋め込み上で直接作業することは、意味的操作を学習する能力を向上させるだけでなく、必要に応じてテキストCLIP損失を追加の監督として直接使用することを可能にします。我々は、pOpsが多様な写真にインスパイアされた演算子を学習するために使用できることを示し、提案手法の意味的多様性と潜在的可能性を強調します。
English
Text-guided image generation enables the creation of visual content from textual descriptions. However, certain visual concepts cannot be effectively conveyed through language alone. This has sparked a renewed interest in utilizing the CLIP image embedding space for more visually-oriented tasks through methods such as IP-Adapter. Interestingly, the CLIP image embedding space has been shown to be semantically meaningful, where linear operations within this space yield semantically meaningful results. Yet, the specific meaning of these operations can vary unpredictably across different images. To harness this potential, we introduce pOps, a framework that trains specific semantic operators directly on CLIP image embeddings. Each pOps operator is built upon a pretrained Diffusion Prior model. While the Diffusion Prior model was originally trained to map between text embeddings and image embeddings, we demonstrate that it can be tuned to accommodate new input conditions, resulting in a diffusion operator. Working directly over image embeddings not only improves our ability to learn semantic operations but also allows us to directly use a textual CLIP loss as an additional supervision when needed. We show that pOps can be used to learn a variety of photo-inspired operators with distinct semantic meanings, highlighting the semantic diversity and potential of our proposed approach.

Summary

AI-Generated Summary

PDF180December 8, 2024