Codificador de Ajuste Independente de Domínio para Personalização Rápida de Modelos de Texto para Imagem
Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image Models
July 13, 2023
Autores: Moab Arar, Rinon Gal, Yuval Atzmon, Gal Chechik, Daniel Cohen-Or, Ariel Shamir, Amit H. Bermano
cs.AI
Resumo
A personalização de texto para imagem (T2I) permite que os usuários orientem o processo criativo de geração de imagens ao combinar seus próprios conceitos visuais em prompts de linguagem natural. Recentemente, técnicas baseadas em codificadores surgiram como uma nova abordagem eficaz para a personalização T2I, reduzindo a necessidade de múltiplas imagens e longos tempos de treinamento. No entanto, a maioria dos codificadores existentes é limitada a um domínio de classe única, o que dificulta sua capacidade de lidar com conceitos diversos. Neste trabalho, propomos um método agnóstico de domínio que não requer nenhum conjunto de dados especializado ou informações prévias sobre os conceitos personalizados. Introduzimos uma nova técnica de regularização baseada em contraste para manter alta fidelidade às características do conceito alvo, mantendo as incorporações previstas próximas a regiões editáveis do espaço latente, ao empurrar os tokens previstos em direção aos seus tokens CLIP mais próximos. Nossos resultados experimentais demonstram a eficácia de nossa abordagem e mostram como os tokens aprendidos são mais semânticos do que os tokens previstos por modelos não regularizados. Isso leva a uma representação melhor que alcança desempenho de ponta, sendo mais flexível do que os métodos anteriores.
English
Text-to-image (T2I) personalization allows users to guide the creative image
generation process by combining their own visual concepts in natural language
prompts. Recently, encoder-based techniques have emerged as a new effective
approach for T2I personalization, reducing the need for multiple images and
long training times. However, most existing encoders are limited to a
single-class domain, which hinders their ability to handle diverse concepts. In
this work, we propose a domain-agnostic method that does not require any
specialized dataset or prior information about the personalized concepts. We
introduce a novel contrastive-based regularization technique to maintain high
fidelity to the target concept characteristics while keeping the predicted
embeddings close to editable regions of the latent space, by pushing the
predicted tokens toward their nearest existing CLIP tokens. Our experimental
results demonstrate the effectiveness of our approach and show how the learned
tokens are more semantic than tokens predicted by unregularized models. This
leads to a better representation that achieves state-of-the-art performance
while being more flexible than previous methods.