Amélioration de la préservation des détails pour la génération d'images à partir de texte personnalisée : une approche sans régularisation

Résumé

Les modèles récents de génération d'images à partir de texte ont démontré une capacité impressionnante à produire des images alignées avec le texte et d'une grande fidélité. Cependant, la génération d'images représentant un nouveau concept fourni par une image d'entrée de l'utilisateur reste une tâche complexe. Pour résoudre ce problème, les chercheurs explorent diverses méthodes pour personnaliser les modèles pré-entraînés de génération d'images à partir de texte. Actuellement, la plupart des méthodes existantes pour personnaliser ces modèles impliquent l'utilisation de techniques de régularisation pour éviter le surapprentissage. Bien que la régularisation facilite la personnalisation et permette une création de contenu réussie en suivant les indications textuelles, elle peut limiter les capacités du modèle, entraînant une perte d'informations détaillées et une performance inférieure. Dans ce travail, nous proposons un nouveau cadre pour la génération personnalisée d'images à partir de texte sans recourir à la régularisation. Plus précisément, notre cadre proposé comprend un réseau encodeur et une nouvelle méthode d'échantillonnage capable de résoudre le problème de surapprentissage sans utiliser de régularisation. Grâce à ce cadre, nous pouvons personnaliser un modèle de génération d'images à partir de texte à grande échelle en moins d'une demi-minute sur un seul GPU, avec une seule image fournie par l'utilisateur. Nous démontrons dans nos expériences que notre cadre surpasse les méthodes existantes et préserve davantage de détails fins.

English

Recent text-to-image generation models have demonstrated impressive capability of generating text-aligned images with high fidelity. However, generating images of novel concept provided by the user input image is still a challenging task. To address this problem, researchers have been exploring various methods for customizing pre-trained text-to-image generation models. Currently, most existing methods for customizing pre-trained text-to-image generation models involve the use of regularization techniques to prevent over-fitting. While regularization will ease the challenge of customization and leads to successful content creation with respect to text guidance, it may restrict the model capability, resulting in the loss of detailed information and inferior performance. In this work, we propose a novel framework for customized text-to-image generation without the use of regularization. Specifically, our proposed framework consists of an encoder network and a novel sampling method which can tackle the over-fitting problem without the use of regularization. With the proposed framework, we are able to customize a large-scale text-to-image generation model within half a minute on single GPU, with only one image provided by the user. We demonstrate in experiments that our proposed framework outperforms existing methods, and preserves more fine-grained details.

Amélioration de la préservation des détails pour la génération d'images à partir de texte personnalisée : une approche sans régularisation

Enhancing Detail Preservation for Customized Text-to-Image Generation: A Regularization-Free Approach

Résumé

Support