Glyph-ByT5 : Un encodeur de texte personnalisé pour un rendu visuel précis du texte
Glyph-ByT5: A Customized Text Encoder for Accurate Visual Text Rendering
March 14, 2024
Auteurs: Zeyu Liu, Weicong Liang, Zhanhao Liang, Chong Luo, Ji Li, Gao Huang, Yuhui Yuan
cs.AI
Résumé
Le rendu visuel de texte représente un défi fondamental pour les modèles contemporains de génération d'images à partir de texte, le problème central résidant dans les lacunes des encodeurs de texte. Pour parvenir à un rendu textuel précis, nous identifions deux exigences cruciales pour les encodeurs de texte : la conscience des caractères et l'alignement avec les glyphes. Notre solution consiste à concevoir une série d'encodeurs de texte personnalisés, Glyph-ByT5, en affinant l'encodeur ByT5 conscient des caractères à l'aide d'un ensemble de données soigneusement sélectionné associant glyphes et texte. Nous présentons une méthode efficace pour intégrer Glyph-ByT5 avec SDXL, aboutissant à la création du modèle Glyph-SDXL pour la génération d'images de conception. Cela améliore considérablement la précision du rendu textuel, la faisant passer de moins de 20 % à près de 90 % sur notre benchmark d'images de conception. Il est à noter que Glyph-SDXL acquiert une nouvelle capacité de rendu de paragraphes de texte, atteignant une grande précision orthographique pour des dizaines à des centaines de caractères avec des mises en page multi-lignes automatisées. Enfin, en affinant Glyph-SDXL avec un petit ensemble d'images photoréalistes de haute qualité comportant du texte visuel, nous démontrons une amélioration substantielle des capacités de rendu de texte scénique dans des images réelles de domaine ouvert. Ces résultats convaincants visent à encourager une exploration plus approfondie dans la conception d'encodeurs de texte personnalisés pour des tâches diverses et complexes.
English
Visual text rendering poses a fundamental challenge for contemporary
text-to-image generation models, with the core problem lying in text encoder
deficiencies. To achieve accurate text rendering, we identify two crucial
requirements for text encoders: character awareness and alignment with glyphs.
Our solution involves crafting a series of customized text encoder, Glyph-ByT5,
by fine-tuning the character-aware ByT5 encoder using a meticulously curated
paired glyph-text dataset. We present an effective method for integrating
Glyph-ByT5 with SDXL, resulting in the creation of the Glyph-SDXL model for
design image generation. This significantly enhances text rendering accuracy,
improving it from less than 20% to nearly 90% on our design image
benchmark. Noteworthy is Glyph-SDXL's newfound ability for text paragraph
rendering, achieving high spelling accuracy for tens to hundreds of characters
with automated multi-line layouts. Finally, through fine-tuning Glyph-SDXL with
a small set of high-quality, photorealistic images featuring visual text, we
showcase a substantial improvement in scene text rendering capabilities in
open-domain real images. These compelling outcomes aim to encourage further
exploration in designing customized text encoders for diverse and challenging
tasks.Summary
AI-Generated Summary