GlyphControl : Contrôle conditionnel des glyphes pour la génération visuelle de texte

Résumé

Récemment, un intérêt croissant s’est manifesté pour le développement de modèles génératifs texte-image basés sur la diffusion, capables de produire du texte visuel cohérent et bien structuré. Dans cet article, nous proposons une approche novatrice et efficace, appelée GlyphControl, pour relever ce défi. Contrairement aux méthodes existantes qui s’appuient sur des encodeurs de texte sensibles aux caractères, tels que ByT5, et nécessitent un réentraînement des modèles texte-image, notre approche exploite des informations conditionnelles supplémentaires liées aux glyphes pour améliorer les performances du modèle Stable-Diffusion prêt à l’emploi dans la génération de texte visuel précis. En intégrant des instructions basées sur les glyphes, les utilisateurs peuvent personnaliser le contenu, l’emplacement et la taille du texte généré en fonction de leurs besoins spécifiques. Pour favoriser les recherches futures dans le domaine de la génération de texte visuel, nous avons constitué un ensemble de données de référence pour l’entraînement, nommé LAION-Glyph. Nous évaluons l’efficacité de notre approche en mesurant des métriques basées sur la reconnaissance optique de caractères (OCR) ainsi que les scores CLIP du texte visuel généré. Nos évaluations empiriques démontrent que GlyphControl surpasse l’approche récente DeepFloyd IF en termes de précision OCR et de scores CLIP, mettant en lumière l’efficacité de notre méthode.

English

Recently, there has been a growing interest in developing diffusion-based text-to-image generative models capable of generating coherent and well-formed visual text. In this paper, we propose a novel and efficient approach called GlyphControl to address this task. Unlike existing methods that rely on character-aware text encoders like ByT5 and require retraining of text-to-image models, our approach leverages additional glyph conditional information to enhance the performance of the off-the-shelf Stable-Diffusion model in generating accurate visual text. By incorporating glyph instructions, users can customize the content, location, and size of the generated text according to their specific requirements. To facilitate further research in visual text generation, we construct a training benchmark dataset called LAION-Glyph. We evaluate the effectiveness of our approach by measuring OCR-based metrics and CLIP scores of the generated visual text. Our empirical evaluations demonstrate that GlyphControl outperforms the recent DeepFloyd IF approach in terms of OCR accuracy and CLIP scores, highlighting the efficacy of our method.

GlyphControl : Contrôle conditionnel des glyphes pour la génération visuelle de texte

GlyphControl: Glyph Conditional Control for Visual Text Generation

Résumé

Support