Verbetering van Detailbehoud voor Gepersonaliseerde Tekst-naar-Beeld Generatie: Een Regularisatie-Vrije Aanpak

Samenvatting

Recente tekst-naar-beeldgeneratiemodellen hebben indrukwekkende mogelijkheden getoond voor het genereren van tekstuitgelijnde afbeeldingen met hoge kwaliteit. Het genereren van afbeeldingen van nieuwe concepten die door de gebruiker worden aangeleverd via een invoerafbeelding blijft echter een uitdagende taak. Om dit probleem aan te pakken, hebben onderzoekers verschillende methoden verkend voor het aanpassen van vooraf getrainde tekst-naar-beeldgeneratiemodellen. Momenteel houden de meeste bestaande methoden voor het aanpassen van vooraf getrainde tekst-naar-beeldgeneratiemodellen het gebruik van regularisatietechnieken in om overfitting te voorkomen. Hoewel regularisatie de uitdaging van aanpassing verlicht en succesvolle contentcreatie mogelijk maakt met betrekking tot tekstbegeleiding, kan het de mogelijkheden van het model beperken, wat resulteert in het verlies van gedetailleerde informatie en inferieure prestaties. In dit werk stellen we een nieuw raamwerk voor voor gepersonaliseerde tekst-naar-beeldgeneratie zonder het gebruik van regularisatie. Specifiek bestaat ons voorgestelde raamwerk uit een encodernetwerk en een nieuwe samplingmethode die het overfittingprobleem kan aanpakken zonder regularisatie te gebruiken. Met het voorgestelde raamwerk kunnen we een grootschalig tekst-naar-beeldgeneratiemodel aanpassen binnen een halve minuut op een enkele GPU, met slechts één afbeelding die door de gebruiker wordt aangeleverd. We tonen in experimenten aan dat ons voorgestelde raamwerk de bestaande methoden overtreft en meer fijngranulaire details behoudt.

English

Recent text-to-image generation models have demonstrated impressive capability of generating text-aligned images with high fidelity. However, generating images of novel concept provided by the user input image is still a challenging task. To address this problem, researchers have been exploring various methods for customizing pre-trained text-to-image generation models. Currently, most existing methods for customizing pre-trained text-to-image generation models involve the use of regularization techniques to prevent over-fitting. While regularization will ease the challenge of customization and leads to successful content creation with respect to text guidance, it may restrict the model capability, resulting in the loss of detailed information and inferior performance. In this work, we propose a novel framework for customized text-to-image generation without the use of regularization. Specifically, our proposed framework consists of an encoder network and a novel sampling method which can tackle the over-fitting problem without the use of regularization. With the proposed framework, we are able to customize a large-scale text-to-image generation model within half a minute on single GPU, with only one image provided by the user. We demonstrate in experiments that our proposed framework outperforms existing methods, and preserves more fine-grained details.

Verbetering van Detailbehoud voor Gepersonaliseerde Tekst-naar-Beeld Generatie: Een Regularisatie-Vrije Aanpak

Enhancing Detail Preservation for Customized Text-to-Image Generation: A Regularization-Free Approach

Samenvatting

Support