Verbetering van Detailbehoud voor Gepersonaliseerde Tekst-naar-Beeld Generatie: Een Regularisatie-Vrije Aanpak
Enhancing Detail Preservation for Customized Text-to-Image Generation: A Regularization-Free Approach
May 23, 2023
Auteurs: Yufan Zhou, Ruiyi Zhang, Tong Sun, Jinhui Xu
cs.AI
Samenvatting
Recente tekst-naar-beeldgeneratiemodellen hebben indrukwekkende mogelijkheden getoond voor het genereren van tekstuitgelijnde afbeeldingen met hoge kwaliteit. Het genereren van afbeeldingen van nieuwe concepten die door de gebruiker worden aangeleverd via een invoerafbeelding blijft echter een uitdagende taak. Om dit probleem aan te pakken, hebben onderzoekers verschillende methoden verkend voor het aanpassen van vooraf getrainde tekst-naar-beeldgeneratiemodellen. Momenteel houden de meeste bestaande methoden voor het aanpassen van vooraf getrainde tekst-naar-beeldgeneratiemodellen het gebruik van regularisatietechnieken in om overfitting te voorkomen. Hoewel regularisatie de uitdaging van aanpassing verlicht en succesvolle contentcreatie mogelijk maakt met betrekking tot tekstbegeleiding, kan het de mogelijkheden van het model beperken, wat resulteert in het verlies van gedetailleerde informatie en inferieure prestaties. In dit werk stellen we een nieuw raamwerk voor voor gepersonaliseerde tekst-naar-beeldgeneratie zonder het gebruik van regularisatie. Specifiek bestaat ons voorgestelde raamwerk uit een encodernetwerk en een nieuwe samplingmethode die het overfittingprobleem kan aanpakken zonder regularisatie te gebruiken. Met het voorgestelde raamwerk kunnen we een grootschalig tekst-naar-beeldgeneratiemodel aanpassen binnen een halve minuut op een enkele GPU, met slechts één afbeelding die door de gebruiker wordt aangeleverd. We tonen in experimenten aan dat ons voorgestelde raamwerk de bestaande methoden overtreft en meer fijngranulaire details behoudt.
English
Recent text-to-image generation models have demonstrated impressive
capability of generating text-aligned images with high fidelity. However,
generating images of novel concept provided by the user input image is still a
challenging task. To address this problem, researchers have been exploring
various methods for customizing pre-trained text-to-image generation models.
Currently, most existing methods for customizing pre-trained text-to-image
generation models involve the use of regularization techniques to prevent
over-fitting. While regularization will ease the challenge of customization and
leads to successful content creation with respect to text guidance, it may
restrict the model capability, resulting in the loss of detailed information
and inferior performance. In this work, we propose a novel framework for
customized text-to-image generation without the use of regularization.
Specifically, our proposed framework consists of an encoder network and a novel
sampling method which can tackle the over-fitting problem without the use of
regularization. With the proposed framework, we are able to customize a
large-scale text-to-image generation model within half a minute on single GPU,
with only one image provided by the user. We demonstrate in experiments that
our proposed framework outperforms existing methods, and preserves more
fine-grained details.