Codificador de Ajuste Independente de Domínio para Personalização Rápida de Modelos de Texto para Imagem

Resumo

A personalização de texto para imagem (T2I) permite que os usuários orientem o processo criativo de geração de imagens ao combinar seus próprios conceitos visuais em prompts de linguagem natural. Recentemente, técnicas baseadas em codificadores surgiram como uma nova abordagem eficaz para a personalização T2I, reduzindo a necessidade de múltiplas imagens e longos tempos de treinamento. No entanto, a maioria dos codificadores existentes é limitada a um domínio de classe única, o que dificulta sua capacidade de lidar com conceitos diversos. Neste trabalho, propomos um método agnóstico de domínio que não requer nenhum conjunto de dados especializado ou informações prévias sobre os conceitos personalizados. Introduzimos uma nova técnica de regularização baseada em contraste para manter alta fidelidade às características do conceito alvo, mantendo as incorporações previstas próximas a regiões editáveis do espaço latente, ao empurrar os tokens previstos em direção aos seus tokens CLIP mais próximos. Nossos resultados experimentais demonstram a eficácia de nossa abordagem e mostram como os tokens aprendidos são mais semânticos do que os tokens previstos por modelos não regularizados. Isso leva a uma representação melhor que alcança desempenho de ponta, sendo mais flexível do que os métodos anteriores.

English

Text-to-image (T2I) personalization allows users to guide the creative image generation process by combining their own visual concepts in natural language prompts. Recently, encoder-based techniques have emerged as a new effective approach for T2I personalization, reducing the need for multiple images and long training times. However, most existing encoders are limited to a single-class domain, which hinders their ability to handle diverse concepts. In this work, we propose a domain-agnostic method that does not require any specialized dataset or prior information about the personalized concepts. We introduce a novel contrastive-based regularization technique to maintain high fidelity to the target concept characteristics while keeping the predicted embeddings close to editable regions of the latent space, by pushing the predicted tokens toward their nearest existing CLIP tokens. Our experimental results demonstrate the effectiveness of our approach and show how the learned tokens are more semantic than tokens predicted by unregularized models. This leads to a better representation that achieves state-of-the-art performance while being more flexible than previous methods.

Codificador de Ajuste Independente de Domínio para Personalização Rápida de Modelos de Texto para Imagem

Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image Models

Resumo

Support