Универсальный настраиваемый энкодер для быстрой персонализации моделей текста в изображение
Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image Models
July 13, 2023
Авторы: Moab Arar, Rinon Gal, Yuval Atzmon, Gal Chechik, Daniel Cohen-Or, Ariel Shamir, Amit H. Bermano
cs.AI
Аннотация
Персонализация текста в изображение (Text-to-Image, T2I) позволяет пользователям направлять процесс творческой генерации изображений, комбинируя свои собственные визуальные концепции в виде текстовых запросов на естественном языке. В последнее время методы на основе кодировщиков стали новым эффективным подходом для персонализации T2I, сокращая необходимость в множестве изображений и длительном времени обучения. Однако большинство существующих кодировщиков ограничены доменами одного класса, что снижает их способность работать с разнообразными концепциями. В данной работе мы предлагаем метод, не зависящий от домена, который не требует специализированных наборов данных или предварительной информации о персонализируемых концепциях. Мы вводим новую технику регуляризации на основе контрастивного обучения, которая сохраняет высокую точность в передаче характеристик целевой концепции, одновременно удерживая предсказанные эмбеддинги близко к редактируемым областям латентного пространства, приближая предсказанные токены к их ближайшим существующим токенам CLIP. Наши экспериментальные результаты демонстрируют эффективность предложенного подхода и показывают, что обученные токены обладают большей семантической значимостью по сравнению с токенами, предсказанными моделями без регуляризации. Это приводит к более качественному представлению, которое достигает передовых показателей производительности, оставаясь при этом более гибким, чем предыдущие методы.
English
Text-to-image (T2I) personalization allows users to guide the creative image
generation process by combining their own visual concepts in natural language
prompts. Recently, encoder-based techniques have emerged as a new effective
approach for T2I personalization, reducing the need for multiple images and
long training times. However, most existing encoders are limited to a
single-class domain, which hinders their ability to handle diverse concepts. In
this work, we propose a domain-agnostic method that does not require any
specialized dataset or prior information about the personalized concepts. We
introduce a novel contrastive-based regularization technique to maintain high
fidelity to the target concept characteristics while keeping the predicted
embeddings close to editable regions of the latent space, by pushing the
predicted tokens toward their nearest existing CLIP tokens. Our experimental
results demonstrate the effectiveness of our approach and show how the learned
tokens are more semantic than tokens predicted by unregularized models. This
leads to a better representation that achieves state-of-the-art performance
while being more flexible than previous methods.