Encoder di Ottimizzazione Indipendente dal Dominio per la Personalizzazione Rapida dei Modelli di Generazione di Immagini da Testo

Abstract

La personalizzazione da testo a immagine (T2I) consente agli utenti di guidare il processo creativo di generazione di immagini combinando i propri concetti visivi in prompt di linguaggio naturale. Recentemente, le tecniche basate su encoder sono emerse come un nuovo approccio efficace per la personalizzazione T2I, riducendo la necessità di più immagini e tempi di addestramento prolungati. Tuttavia, la maggior parte degli encoder esistenti è limitata a un dominio a classe singola, il che ne ostacola la capacità di gestire concetti diversi. In questo lavoro, proponiamo un metodo agnostico rispetto al dominio che non richiede alcun dataset specializzato o informazioni preliminari sui concetti personalizzati. Introduciamo una nuova tecnica di regolarizzazione basata sul contrasto per mantenere un'elevata fedeltà alle caratteristiche del concetto target, mantenendo al contempo gli embedding previsti vicini alle regioni modificabili dello spazio latente, spingendo i token previsti verso i token CLIP esistenti più vicini. I nostri risultati sperimentali dimostrano l'efficacia del nostro approccio e mostrano come i token appresi siano più semantici rispetto a quelli previsti da modelli non regolarizzati. Ciò porta a una rappresentazione migliore che raggiunge prestazioni all'avanguardia, risultando al contempo più flessibile rispetto ai metodi precedenti.

English

Text-to-image (T2I) personalization allows users to guide the creative image generation process by combining their own visual concepts in natural language prompts. Recently, encoder-based techniques have emerged as a new effective approach for T2I personalization, reducing the need for multiple images and long training times. However, most existing encoders are limited to a single-class domain, which hinders their ability to handle diverse concepts. In this work, we propose a domain-agnostic method that does not require any specialized dataset or prior information about the personalized concepts. We introduce a novel contrastive-based regularization technique to maintain high fidelity to the target concept characteristics while keeping the predicted embeddings close to editable regions of the latent space, by pushing the predicted tokens toward their nearest existing CLIP tokens. Our experimental results demonstrate the effectiveness of our approach and show how the learned tokens are more semantic than tokens predicted by unregularized models. This leads to a better representation that achieves state-of-the-art performance while being more flexible than previous methods.

Encoder di Ottimizzazione Indipendente dal Dominio per la Personalizzazione Rapida dei Modelli di Generazione di Immagini da Testo

Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image Models

Abstract

Support