pOps: Operadores de Difusión Inspirados en Fotografías

Resumen

La generación de imágenes guiada por texto permite la creación de contenido visual a partir de descripciones textuales. Sin embargo, ciertos conceptos visuales no pueden transmitirse de manera efectiva únicamente a través del lenguaje. Esto ha renovado el interés en utilizar el espacio de incrustación de imágenes de CLIP para tareas más orientadas a lo visual mediante métodos como IP-Adapter. Curiosamente, se ha demostrado que el espacio de incrustación de imágenes de CLIP es semánticamente significativo, donde las operaciones lineales dentro de este espacio producen resultados semánticamente coherentes. No obstante, el significado específico de estas operaciones puede variar de manera impredecible entre diferentes imágenes. Para aprovechar este potencial, presentamos pOps, un marco que entrena operadores semánticos específicos directamente sobre las incrustaciones de imágenes de CLIP. Cada operador pOps se basa en un modelo de Difusión Previa preentrenado. Aunque el modelo de Difusión Previa fue originalmente entrenado para mapear entre incrustaciones de texto e incrustaciones de imágenes, demostramos que puede ajustarse para adaptarse a nuevas condiciones de entrada, resultando en un operador de difusión. Trabajar directamente sobre las incrustaciones de imágenes no solo mejora nuestra capacidad para aprender operaciones semánticas, sino que también nos permite utilizar directamente una pérdida CLIP textual como supervisión adicional cuando es necesario. Mostramos que pOps puede utilizarse para aprender una variedad de operadores inspirados en fotografías con significados semánticos distintos, destacando la diversidad semántica y el potencial de nuestro enfoque propuesto.

English

Text-guided image generation enables the creation of visual content from textual descriptions. However, certain visual concepts cannot be effectively conveyed through language alone. This has sparked a renewed interest in utilizing the CLIP image embedding space for more visually-oriented tasks through methods such as IP-Adapter. Interestingly, the CLIP image embedding space has been shown to be semantically meaningful, where linear operations within this space yield semantically meaningful results. Yet, the specific meaning of these operations can vary unpredictably across different images. To harness this potential, we introduce pOps, a framework that trains specific semantic operators directly on CLIP image embeddings. Each pOps operator is built upon a pretrained Diffusion Prior model. While the Diffusion Prior model was originally trained to map between text embeddings and image embeddings, we demonstrate that it can be tuned to accommodate new input conditions, resulting in a diffusion operator. Working directly over image embeddings not only improves our ability to learn semantic operations but also allows us to directly use a textual CLIP loss as an additional supervision when needed. We show that pOps can be used to learn a variety of photo-inspired operators with distinct semantic meanings, highlighting the semantic diversity and potential of our proposed approach.

pOps: Operadores de Difusión Inspirados en Fotografías

pOps: Photo-Inspired Diffusion Operators

Resumen

Support