GlyphControl : Contrôle conditionnel des glyphes pour la génération visuelle de texte
GlyphControl: Glyph Conditional Control for Visual Text Generation
May 29, 2023
Auteurs: Yukang Yang, Dongnan Gui, Yuhui Yuan, Haisong Ding, Han Hu, Kai Chen
cs.AI
Résumé
Récemment, un intérêt croissant s’est manifesté pour le développement de modèles génératifs texte-image basés sur la diffusion, capables de produire du texte visuel cohérent et bien structuré. Dans cet article, nous proposons une approche novatrice et efficace, appelée GlyphControl, pour relever ce défi. Contrairement aux méthodes existantes qui s’appuient sur des encodeurs de texte sensibles aux caractères, tels que ByT5, et nécessitent un réentraînement des modèles texte-image, notre approche exploite des informations conditionnelles supplémentaires liées aux glyphes pour améliorer les performances du modèle Stable-Diffusion prêt à l’emploi dans la génération de texte visuel précis. En intégrant des instructions basées sur les glyphes, les utilisateurs peuvent personnaliser le contenu, l’emplacement et la taille du texte généré en fonction de leurs besoins spécifiques. Pour favoriser les recherches futures dans le domaine de la génération de texte visuel, nous avons constitué un ensemble de données de référence pour l’entraînement, nommé LAION-Glyph. Nous évaluons l’efficacité de notre approche en mesurant des métriques basées sur la reconnaissance optique de caractères (OCR) ainsi que les scores CLIP du texte visuel généré. Nos évaluations empiriques démontrent que GlyphControl surpasse l’approche récente DeepFloyd IF en termes de précision OCR et de scores CLIP, mettant en lumière l’efficacité de notre méthode.
English
Recently, there has been a growing interest in developing diffusion-based
text-to-image generative models capable of generating coherent and well-formed
visual text. In this paper, we propose a novel and efficient approach called
GlyphControl to address this task. Unlike existing methods that rely on
character-aware text encoders like ByT5 and require retraining of text-to-image
models, our approach leverages additional glyph conditional information to
enhance the performance of the off-the-shelf Stable-Diffusion model in
generating accurate visual text. By incorporating glyph instructions, users can
customize the content, location, and size of the generated text according to
their specific requirements. To facilitate further research in visual text
generation, we construct a training benchmark dataset called LAION-Glyph. We
evaluate the effectiveness of our approach by measuring OCR-based metrics and
CLIP scores of the generated visual text. Our empirical evaluations demonstrate
that GlyphControl outperforms the recent DeepFloyd IF approach in terms of OCR
accuracy and CLIP scores, highlighting the efficacy of our method.