Amélioration de la préservation des détails pour la génération d'images à partir de texte personnalisée : une approche sans régularisation
Enhancing Detail Preservation for Customized Text-to-Image Generation: A Regularization-Free Approach
May 23, 2023
Auteurs: Yufan Zhou, Ruiyi Zhang, Tong Sun, Jinhui Xu
cs.AI
Résumé
Les modèles récents de génération d'images à partir de texte ont démontré une capacité impressionnante à produire des images alignées avec le texte et d'une grande fidélité. Cependant, la génération d'images représentant un nouveau concept fourni par une image d'entrée de l'utilisateur reste une tâche complexe. Pour résoudre ce problème, les chercheurs explorent diverses méthodes pour personnaliser les modèles pré-entraînés de génération d'images à partir de texte. Actuellement, la plupart des méthodes existantes pour personnaliser ces modèles impliquent l'utilisation de techniques de régularisation pour éviter le surapprentissage. Bien que la régularisation facilite la personnalisation et permette une création de contenu réussie en suivant les indications textuelles, elle peut limiter les capacités du modèle, entraînant une perte d'informations détaillées et une performance inférieure. Dans ce travail, nous proposons un nouveau cadre pour la génération personnalisée d'images à partir de texte sans recourir à la régularisation. Plus précisément, notre cadre proposé comprend un réseau encodeur et une nouvelle méthode d'échantillonnage capable de résoudre le problème de surapprentissage sans utiliser de régularisation. Grâce à ce cadre, nous pouvons personnaliser un modèle de génération d'images à partir de texte à grande échelle en moins d'une demi-minute sur un seul GPU, avec une seule image fournie par l'utilisateur. Nous démontrons dans nos expériences que notre cadre surpasse les méthodes existantes et préserve davantage de détails fins.
English
Recent text-to-image generation models have demonstrated impressive
capability of generating text-aligned images with high fidelity. However,
generating images of novel concept provided by the user input image is still a
challenging task. To address this problem, researchers have been exploring
various methods for customizing pre-trained text-to-image generation models.
Currently, most existing methods for customizing pre-trained text-to-image
generation models involve the use of regularization techniques to prevent
over-fitting. While regularization will ease the challenge of customization and
leads to successful content creation with respect to text guidance, it may
restrict the model capability, resulting in the loss of detailed information
and inferior performance. In this work, we propose a novel framework for
customized text-to-image generation without the use of regularization.
Specifically, our proposed framework consists of an encoder network and a novel
sampling method which can tackle the over-fitting problem without the use of
regularization. With the proposed framework, we are able to customize a
large-scale text-to-image generation model within half a minute on single GPU,
with only one image provided by the user. We demonstrate in experiments that
our proposed framework outperforms existing methods, and preserves more
fine-grained details.