Glyph-ByT5: Een Gepersonaliseerde Tekstencoder voor Nauwkeurige Visuele Tekstweergave
Glyph-ByT5: A Customized Text Encoder for Accurate Visual Text Rendering
March 14, 2024
Auteurs: Zeyu Liu, Weicong Liang, Zhanhao Liang, Chong Luo, Ji Li, Gao Huang, Yuhui Yuan
cs.AI
Samenvatting
Visuele tekstweergave vormt een fundamentele uitdaging voor hedendaagse tekst-naar-beeld generatiemodellen, waarbij het kernprobleem ligt in tekortkomingen van tekstencoders. Om nauwkeurige tekstweergave te bereiken, identificeren we twee cruciale vereisten voor tekstencoders: karakterbewustzijn en uitlijning met glyphs. Onze oplossing omvat het ontwikkelen van een reeks aangepaste tekstencoders, Glyph-ByT5, door het finetunen van de karakterbewuste ByT5-encoder met behulp van een zorgvuldig samengestelde gepaarde glyph-tekst dataset. We presenteren een effectieve methode voor het integreren van Glyph-ByT5 met SDXL, wat resulteert in de creatie van het Glyph-SDXL model voor het genereren van ontwerpbeelden. Dit verbetert de nauwkeurigheid van tekstweergave aanzienlijk, van minder dan 20% naar bijna 90% op onze ontwerpbeeld benchmark. Opmerkelijk is de nieuwe mogelijkheid van Glyph-SDXL voor het weergeven van tekstparagrafen, waarbij hoge spellingnauwkeurigheid wordt bereikt voor tientallen tot honderden karakters met geautomatiseerde meerregelige lay-outs. Tot slot demonstreren we, door Glyph-SDXL te finetunen met een kleine set hoogwaardige, fotorealistische afbeeldingen met visuele tekst, een aanzienlijke verbetering in de mogelijkheden voor het weergeven van scènetekst in open-domein echte afbeeldingen. Deze overtuigende resultaten hebben als doel om verder onderzoek aan te moedigen naar het ontwerpen van aangepaste tekstencoders voor diverse en uitdagende taken.
English
Visual text rendering poses a fundamental challenge for contemporary
text-to-image generation models, with the core problem lying in text encoder
deficiencies. To achieve accurate text rendering, we identify two crucial
requirements for text encoders: character awareness and alignment with glyphs.
Our solution involves crafting a series of customized text encoder, Glyph-ByT5,
by fine-tuning the character-aware ByT5 encoder using a meticulously curated
paired glyph-text dataset. We present an effective method for integrating
Glyph-ByT5 with SDXL, resulting in the creation of the Glyph-SDXL model for
design image generation. This significantly enhances text rendering accuracy,
improving it from less than 20% to nearly 90% on our design image
benchmark. Noteworthy is Glyph-SDXL's newfound ability for text paragraph
rendering, achieving high spelling accuracy for tens to hundreds of characters
with automated multi-line layouts. Finally, through fine-tuning Glyph-SDXL with
a small set of high-quality, photorealistic images featuring visual text, we
showcase a substantial improvement in scene text rendering capabilities in
open-domain real images. These compelling outcomes aim to encourage further
exploration in designing customized text encoders for diverse and challenging
tasks.