Glyph-ByT5: Ein angepasster Textkodierer für präzise visuelle Textdarstellung
Glyph-ByT5: A Customized Text Encoder for Accurate Visual Text Rendering
March 14, 2024
Autoren: Zeyu Liu, Weicong Liang, Zhanhao Liang, Chong Luo, Ji Li, Gao Huang, Yuhui Yuan
cs.AI
Zusammenfassung
Die visuelle Textdarstellung stellt ein grundlegendes Problem für zeitgenössische Text-zu-Bild-Generierungsmodelle dar, wobei das Hauptproblem in den Defiziten der Textcodierer liegt. Um eine präzise Textdarstellung zu erreichen, identifizieren wir zwei entscheidende Anforderungen an Textcodierer: Zeichenbewusstsein und Ausrichtung mit Glyphen. Unsere Lösung beinhaltet die Entwicklung einer Reihe von angepassten Textcodierern, Glyph-ByT5, durch Feinabstimmung des zeichenbewussten ByT5-Codierers unter Verwendung eines sorgfältig kuratierten gepaarten Glyphen-Text-Datensatzes. Wir präsentieren eine effektive Methode zur Integration von Glyph-ByT5 mit SDXL, was zur Schaffung des Glyph-SDXL-Modells für die Generierung von Designbildern führt. Dies verbessert die Textdarstellungsgenauigkeit signifikant, von weniger als 20% auf fast 90% in unserem Designbild-Benchmark. Bemerkenswert ist die neu gewonnene Fähigkeit von Glyph-SDXL zur Textabsatzdarstellung, die eine hohe Rechtschreibgenauigkeit für zehn bis hunderte von Zeichen mit automatischen mehrzeiligen Layouts erreicht. Schließlich zeigen wir durch die Feinabstimmung von Glyph-SDXL mit einem kleinen Satz hochwertiger, fotorealistischer Bilder mit visuellem Text eine wesentliche Verbesserung der Fähigkeiten zur Szenentextdarstellung in offenen, realen Bildern. Diese überzeugenden Ergebnisse sollen weitere Erkundungen zur Entwicklung von angepassten Textcodierern für vielfältige und anspruchsvolle Aufgaben anregen.
English
Visual text rendering poses a fundamental challenge for contemporary
text-to-image generation models, with the core problem lying in text encoder
deficiencies. To achieve accurate text rendering, we identify two crucial
requirements for text encoders: character awareness and alignment with glyphs.
Our solution involves crafting a series of customized text encoder, Glyph-ByT5,
by fine-tuning the character-aware ByT5 encoder using a meticulously curated
paired glyph-text dataset. We present an effective method for integrating
Glyph-ByT5 with SDXL, resulting in the creation of the Glyph-SDXL model for
design image generation. This significantly enhances text rendering accuracy,
improving it from less than 20% to nearly 90% on our design image
benchmark. Noteworthy is Glyph-SDXL's newfound ability for text paragraph
rendering, achieving high spelling accuracy for tens to hundreds of characters
with automated multi-line layouts. Finally, through fine-tuning Glyph-SDXL with
a small set of high-quality, photorealistic images featuring visual text, we
showcase a substantial improvement in scene text rendering capabilities in
open-domain real images. These compelling outcomes aim to encourage further
exploration in designing customized text encoders for diverse and challenging
tasks.Summary
AI-Generated Summary