Domein-Onafhankelijke Afstemmings-Encoder voor Snelle Personalisatie van Tekst-Naar-Beeld Modellen

Samenvatting

Text-to-image (T2I)-personalisatie stelt gebruikers in staat om het creatieve beeldgeneratieproces te sturen door hun eigen visuele concepten te combineren in natuurlijke taalprompts. Recent zijn encoder-gebaseerde technieken naar voren gekomen als een nieuwe effectieve aanpak voor T2I-personalisatie, waardoor de behoefte aan meerdere afbeeldingen en lange trainingstijden wordt verminderd. De meeste bestaande encoders zijn echter beperkt tot een domein met één klasse, wat hun vermogen om diverse concepten te verwerken belemmert. In dit werk stellen we een domein-agnostische methode voor die geen gespecialiseerde dataset of voorafgaande informatie over de gepersonaliseerde concepten vereist. We introduceren een nieuwe contrastieve regularisatietechniek om een hoge trouw aan de kenmerken van het doelconcept te behouden, terwijl de voorspelde embeddings dicht bij bewerkbare regio's van de latente ruimte blijven, door de voorspelde tokens naar hun dichtstbijzijnde bestaande CLIP-tokens te duwen. Onze experimentele resultaten tonen de effectiviteit van onze aanpak aan en laten zien hoe de geleerde tokens semantischer zijn dan tokens die door niet-geregulariseerde modellen worden voorspeld. Dit leidt tot een betere representatie die state-of-the-art prestaties bereikt, terwijl het flexibeler is dan eerdere methoden.

English

Text-to-image (T2I) personalization allows users to guide the creative image generation process by combining their own visual concepts in natural language prompts. Recently, encoder-based techniques have emerged as a new effective approach for T2I personalization, reducing the need for multiple images and long training times. However, most existing encoders are limited to a single-class domain, which hinders their ability to handle diverse concepts. In this work, we propose a domain-agnostic method that does not require any specialized dataset or prior information about the personalized concepts. We introduce a novel contrastive-based regularization technique to maintain high fidelity to the target concept characteristics while keeping the predicted embeddings close to editable regions of the latent space, by pushing the predicted tokens toward their nearest existing CLIP tokens. Our experimental results demonstrate the effectiveness of our approach and show how the learned tokens are more semantic than tokens predicted by unregularized models. This leads to a better representation that achieves state-of-the-art performance while being more flexible than previous methods.

Domein-Onafhankelijke Afstemmings-Encoder voor Snelle Personalisatie van Tekst-Naar-Beeld Modellen

Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image Models

Samenvatting

Support