Glyph-ByT5: Un Codificatore di Testo Personalizzato per una Resa Visiva Precisa del Testo

Abstract

Il rendering visivo del testo rappresenta una sfida fondamentale per i modelli contemporanei di generazione di immagini da testo, con il problema principale che risiede nelle carenze degli encoder di testo. Per ottenere un rendering accurato del testo, identifichiamo due requisiti cruciali per gli encoder di testo: consapevolezza dei caratteri e allineamento con i glifi. La nostra soluzione prevede la creazione di una serie di encoder di testo personalizzati, Glyph-ByT5, ottimizzando l'encoder ByT5, consapevole dei caratteri, utilizzando un dataset accuratamente curato di coppie glifo-testo. Presentiamo un metodo efficace per integrare Glyph-ByT5 con SDXL, dando vita al modello Glyph-SDXL per la generazione di immagini di design. Ciò migliora significativamente l'accuratezza del rendering del testo, portandola da meno del 20% a quasi il 90% sul nostro benchmark di immagini di design. Degna di nota è la nuova capacità di Glyph-SDXL di eseguire il rendering di paragrafi di testo, raggiungendo un'elevata accuratezza ortografica per decine o centinaia di caratteri con layout multi-linea automatizzati. Infine, attraverso la messa a punto di Glyph-SDXL con un piccolo insieme di immagini fotorealistiche di alta qualità contenenti testo visivo, dimostriamo un sostanziale miglioramento nelle capacità di rendering del testo in scene di immagini reali in domini aperti. Questi risultati convincenti mirano a incoraggiare ulteriori esplorazioni nella progettazione di encoder di testo personalizzati per compiti diversificati e impegnativi.

English

Visual text rendering poses a fundamental challenge for contemporary text-to-image generation models, with the core problem lying in text encoder deficiencies. To achieve accurate text rendering, we identify two crucial requirements for text encoders: character awareness and alignment with glyphs. Our solution involves crafting a series of customized text encoder, Glyph-ByT5, by fine-tuning the character-aware ByT5 encoder using a meticulously curated paired glyph-text dataset. We present an effective method for integrating Glyph-ByT5 with SDXL, resulting in the creation of the Glyph-SDXL model for design image generation. This significantly enhances text rendering accuracy, improving it from less than 20% to nearly 90% on our design image benchmark. Noteworthy is Glyph-SDXL's newfound ability for text paragraph rendering, achieving high spelling accuracy for tens to hundreds of characters with automated multi-line layouts. Finally, through fine-tuning Glyph-SDXL with a small set of high-quality, photorealistic images featuring visual text, we showcase a substantial improvement in scene text rendering capabilities in open-domain real images. These compelling outcomes aim to encourage further exploration in designing customized text encoders for diverse and challenging tasks.

Glyph-ByT5: Un Codificatore di Testo Personalizzato per una Resa Visiva Precisa del Testo

Glyph-ByT5: A Customized Text Encoder for Accurate Visual Text Rendering

Abstract

Support