pOps: Operadores de Difusión Inspirados en Fotografías
pOps: Photo-Inspired Diffusion Operators
June 3, 2024
Autores: Elad Richardson, Yuval Alaluf, Ali Mahdavi-Amiri, Daniel Cohen-Or
cs.AI
Resumen
La generación de imágenes guiada por texto permite la creación de contenido visual a partir de descripciones textuales. Sin embargo, ciertos conceptos visuales no pueden transmitirse de manera efectiva únicamente a través del lenguaje. Esto ha renovado el interés en utilizar el espacio de incrustación de imágenes de CLIP para tareas más orientadas a lo visual mediante métodos como IP-Adapter. Curiosamente, se ha demostrado que el espacio de incrustación de imágenes de CLIP es semánticamente significativo, donde las operaciones lineales dentro de este espacio producen resultados semánticamente coherentes. No obstante, el significado específico de estas operaciones puede variar de manera impredecible entre diferentes imágenes. Para aprovechar este potencial, presentamos pOps, un marco que entrena operadores semánticos específicos directamente sobre las incrustaciones de imágenes de CLIP. Cada operador pOps se basa en un modelo de Difusión Previa preentrenado. Aunque el modelo de Difusión Previa fue originalmente entrenado para mapear entre incrustaciones de texto e incrustaciones de imágenes, demostramos que puede ajustarse para adaptarse a nuevas condiciones de entrada, resultando en un operador de difusión. Trabajar directamente sobre las incrustaciones de imágenes no solo mejora nuestra capacidad para aprender operaciones semánticas, sino que también nos permite utilizar directamente una pérdida CLIP textual como supervisión adicional cuando es necesario. Mostramos que pOps puede utilizarse para aprender una variedad de operadores inspirados en fotografías con significados semánticos distintos, destacando la diversidad semántica y el potencial de nuestro enfoque propuesto.
English
Text-guided image generation enables the creation of visual content from
textual descriptions. However, certain visual concepts cannot be effectively
conveyed through language alone. This has sparked a renewed interest in
utilizing the CLIP image embedding space for more visually-oriented tasks
through methods such as IP-Adapter. Interestingly, the CLIP image embedding
space has been shown to be semantically meaningful, where linear operations
within this space yield semantically meaningful results. Yet, the specific
meaning of these operations can vary unpredictably across different images. To
harness this potential, we introduce pOps, a framework that trains specific
semantic operators directly on CLIP image embeddings. Each pOps operator is
built upon a pretrained Diffusion Prior model. While the Diffusion Prior model
was originally trained to map between text embeddings and image embeddings, we
demonstrate that it can be tuned to accommodate new input conditions, resulting
in a diffusion operator. Working directly over image embeddings not only
improves our ability to learn semantic operations but also allows us to
directly use a textual CLIP loss as an additional supervision when needed. We
show that pOps can be used to learn a variety of photo-inspired operators with
distinct semantic meanings, highlighting the semantic diversity and potential
of our proposed approach.Summary
AI-Generated Summary