ChatPaper.aiChatPaper

pOps: Операторы диффузии, вдохновленные фотографиями

pOps: Photo-Inspired Diffusion Operators

June 3, 2024
Авторы: Elad Richardson, Yuval Alaluf, Ali Mahdavi-Amiri, Daniel Cohen-Or
cs.AI

Аннотация

Генерация изображений по текстовому описанию позволяет создавать визуальный контент на основе текста. Однако некоторые визуальные концепции нельзя эффективно передать только с помощью языка. Это привело к возрождению интереса к использованию пространства вложения изображений CLIP для более визуально ориентированных задач с помощью методов, таких как IP-Adapter. Интересно, что пространство вложения изображений CLIP оказалось семантически значимым, где линейные операции в этом пространстве приводят к семантически значимым результатам. Тем не менее, конкретное значение этих операций может непредсказуемо варьироваться в разных изображениях. Для использования этого потенциала мы представляем pOps, фреймворк, который обучает конкретные семантические операторы непосредственно на вложениях изображений CLIP. Каждый оператор pOps основан на предварительно обученной модели Diffusion Prior. В то время как модель Diffusion Prior изначально обучалась для отображения между вложениями текста и вложениями изображений, мы демонстрируем, что ее можно настроить для адаптации к новым входным условиям, что приводит к оператору диффузии. Работа непосредственно с вложениями изображений не только улучшает нашу способность к обучению семантических операций, но также позволяет нам непосредственно использовать текстовую потерю CLIP в качестве дополнительного наблюдения при необходимости. Мы показываем, что pOps можно использовать для обучения различных операторов, вдохновленных фотографиями, с различными семантическими значениями, подчеркивая семантическое разнообразие и потенциал нашего предложенного подхода.
English
Text-guided image generation enables the creation of visual content from textual descriptions. However, certain visual concepts cannot be effectively conveyed through language alone. This has sparked a renewed interest in utilizing the CLIP image embedding space for more visually-oriented tasks through methods such as IP-Adapter. Interestingly, the CLIP image embedding space has been shown to be semantically meaningful, where linear operations within this space yield semantically meaningful results. Yet, the specific meaning of these operations can vary unpredictably across different images. To harness this potential, we introduce pOps, a framework that trains specific semantic operators directly on CLIP image embeddings. Each pOps operator is built upon a pretrained Diffusion Prior model. While the Diffusion Prior model was originally trained to map between text embeddings and image embeddings, we demonstrate that it can be tuned to accommodate new input conditions, resulting in a diffusion operator. Working directly over image embeddings not only improves our ability to learn semantic operations but also allows us to directly use a textual CLIP loss as an additional supervision when needed. We show that pOps can be used to learn a variety of photo-inspired operators with distinct semantic meanings, highlighting the semantic diversity and potential of our proposed approach.

Summary

AI-Generated Summary

PDF180December 8, 2024