ChatPaper.aiChatPaper

pOps : Opérateurs de diffusion inspirés par la photographie

pOps: Photo-Inspired Diffusion Operators

June 3, 2024
Auteurs: Elad Richardson, Yuval Alaluf, Ali Mahdavi-Amiri, Daniel Cohen-Or
cs.AI

Résumé

La génération d'images guidée par texte permet la création de contenus visuels à partir de descriptions textuelles. Cependant, certains concepts visuels ne peuvent être efficacement transmis par le langage seul. Cela a suscité un regain d'intérêt pour l'utilisation de l'espace d'embedding d'images CLIP pour des tâches plus orientées visuellement, grâce à des méthodes telles que IP-Adapter. Fait intéressant, il a été démontré que l'espace d'embedding d'images CLIP est sémantiquement significatif, où les opérations linéaires dans cet espace produisent des résultats sémantiquement cohérents. Pourtant, la signification spécifique de ces opérations peut varier de manière imprévisible selon les images. Pour exploiter ce potentiel, nous introduisons pOps, un cadre qui entraîne des opérateurs sémantiques spécifiques directement sur les embeddings d'images CLIP. Chaque opérateur pOps est construit sur un modèle Diffusion Prior pré-entraîné. Bien que le modèle Diffusion Prior ait été initialement entraîné pour mapper entre les embeddings de texte et les embeddings d'images, nous démontrons qu'il peut être ajusté pour s'adapter à de nouvelles conditions d'entrée, résultant en un opérateur de diffusion. Travailler directement sur les embeddings d'images améliore non seulement notre capacité à apprendre des opérations sémantiques, mais nous permet également d'utiliser directement une perte CLIP textuelle comme supervision supplémentaire lorsque nécessaire. Nous montrons que pOps peut être utilisé pour apprendre une variété d'opérateurs inspirés de la photographie avec des significations sémantiques distinctes, mettant en évidence la diversité sémantique et le potentiel de notre approche proposée.
English
Text-guided image generation enables the creation of visual content from textual descriptions. However, certain visual concepts cannot be effectively conveyed through language alone. This has sparked a renewed interest in utilizing the CLIP image embedding space for more visually-oriented tasks through methods such as IP-Adapter. Interestingly, the CLIP image embedding space has been shown to be semantically meaningful, where linear operations within this space yield semantically meaningful results. Yet, the specific meaning of these operations can vary unpredictably across different images. To harness this potential, we introduce pOps, a framework that trains specific semantic operators directly on CLIP image embeddings. Each pOps operator is built upon a pretrained Diffusion Prior model. While the Diffusion Prior model was originally trained to map between text embeddings and image embeddings, we demonstrate that it can be tuned to accommodate new input conditions, resulting in a diffusion operator. Working directly over image embeddings not only improves our ability to learn semantic operations but also allows us to directly use a textual CLIP loss as an additional supervision when needed. We show that pOps can be used to learn a variety of photo-inspired operators with distinct semantic meanings, highlighting the semantic diversity and potential of our proposed approach.

Summary

AI-Generated Summary

PDF180December 8, 2024