Glyph-ByT5: Un Codificatore di Testo Personalizzato per una Resa Visiva Precisa del Testo
Glyph-ByT5: A Customized Text Encoder for Accurate Visual Text Rendering
March 14, 2024
Autori: Zeyu Liu, Weicong Liang, Zhanhao Liang, Chong Luo, Ji Li, Gao Huang, Yuhui Yuan
cs.AI
Abstract
Il rendering visivo del testo rappresenta una sfida fondamentale per i modelli contemporanei di generazione di immagini da testo, con il problema principale che risiede nelle carenze degli encoder di testo. Per ottenere un rendering accurato del testo, identifichiamo due requisiti cruciali per gli encoder di testo: consapevolezza dei caratteri e allineamento con i glifi. La nostra soluzione prevede la creazione di una serie di encoder di testo personalizzati, Glyph-ByT5, ottimizzando l'encoder ByT5, consapevole dei caratteri, utilizzando un dataset accuratamente curato di coppie glifo-testo. Presentiamo un metodo efficace per integrare Glyph-ByT5 con SDXL, dando vita al modello Glyph-SDXL per la generazione di immagini di design. Ciò migliora significativamente l'accuratezza del rendering del testo, portandola da meno del 20% a quasi il 90% sul nostro benchmark di immagini di design. Degna di nota è la nuova capacità di Glyph-SDXL di eseguire il rendering di paragrafi di testo, raggiungendo un'elevata accuratezza ortografica per decine o centinaia di caratteri con layout multi-linea automatizzati. Infine, attraverso la messa a punto di Glyph-SDXL con un piccolo insieme di immagini fotorealistiche di alta qualità contenenti testo visivo, dimostriamo un sostanziale miglioramento nelle capacità di rendering del testo in scene di immagini reali in domini aperti. Questi risultati convincenti mirano a incoraggiare ulteriori esplorazioni nella progettazione di encoder di testo personalizzati per compiti diversificati e impegnativi.
English
Visual text rendering poses a fundamental challenge for contemporary
text-to-image generation models, with the core problem lying in text encoder
deficiencies. To achieve accurate text rendering, we identify two crucial
requirements for text encoders: character awareness and alignment with glyphs.
Our solution involves crafting a series of customized text encoder, Glyph-ByT5,
by fine-tuning the character-aware ByT5 encoder using a meticulously curated
paired glyph-text dataset. We present an effective method for integrating
Glyph-ByT5 with SDXL, resulting in the creation of the Glyph-SDXL model for
design image generation. This significantly enhances text rendering accuracy,
improving it from less than 20% to nearly 90% on our design image
benchmark. Noteworthy is Glyph-SDXL's newfound ability for text paragraph
rendering, achieving high spelling accuracy for tens to hundreds of characters
with automated multi-line layouts. Finally, through fine-tuning Glyph-SDXL with
a small set of high-quality, photorealistic images featuring visual text, we
showcase a substantial improvement in scene text rendering capabilities in
open-domain real images. These compelling outcomes aim to encourage further
exploration in designing customized text encoders for diverse and challenging
tasks.