ChatPaper.aiChatPaper

PALP: Персонализация моделей генерации изображений по тексту с выравниванием по промптам

PALP: Prompt Aligned Personalization of Text-to-Image Models

January 11, 2024
Авторы: Moab Arar, Andrey Voynov, Amir Hertz, Omri Avrahami, Shlomi Fruchter, Yael Pritch, Daniel Cohen-Or, Ariel Shamir
cs.AI

Аннотация

Создатели контента часто стремятся создавать персонализированные изображения с использованием личных объектов, которые выходят за рамки возможностей традиционных моделей преобразования текста в изображение. Кроме того, они могут желать, чтобы итоговое изображение включало в себя определенное место, стиль, атмосферу и многое другое. Существующие методы персонализации могут идти на компромисс между способностью к персонализации и соответствием сложным текстовым запросам. Этот компромисс может препятствовать выполнению пользовательских запросов и сохранению точности объектов. Мы предлагаем новый подход, сосредоточенный на методах персонализации для одного запроса, чтобы решить эту проблему. Мы называем наш подход персонализацией, согласованной с запросом. Хотя это может показаться ограничивающим, наш метод превосходно улучшает соответствие тексту, позволяя создавать изображения с использованием сложных и детализированных запросов, которые могут представлять трудность для современных техник. В частности, наш метод поддерживает персонализированную модель в соответствии с целевым запросом, используя дополнительный термин дистилляции оценки. Мы демонстрируем универсальность нашего метода в условиях многократного и однократного использования, а также показываем, что он может комбинировать несколько объектов или использовать вдохновение из референсных изображений, таких как произведения искусства. Мы сравниваем наш подход количественно и качественно с существующими базовыми методами и передовыми техниками.
English
Content creators often aim to create personalized images using personal subjects that go beyond the capabilities of conventional text-to-image models. Additionally, they may want the resulting image to encompass a specific location, style, ambiance, and more. Existing personalization methods may compromise personalization ability or the alignment to complex textual prompts. This trade-off can impede the fulfillment of user prompts and subject fidelity. We propose a new approach focusing on personalization methods for a single prompt to address this issue. We term our approach prompt-aligned personalization. While this may seem restrictive, our method excels in improving text alignment, enabling the creation of images with complex and intricate prompts, which may pose a challenge for current techniques. In particular, our method keeps the personalized model aligned with a target prompt using an additional score distillation sampling term. We demonstrate the versatility of our method in multi- and single-shot settings and further show that it can compose multiple subjects or use inspiration from reference images, such as artworks. We compare our approach quantitatively and qualitatively with existing baselines and state-of-the-art techniques.
PDF502December 15, 2024