Glyph-ByT5: Um Codificador de Texto Personalizado para Renderização Visual de Texto Preciso
Glyph-ByT5: A Customized Text Encoder for Accurate Visual Text Rendering
March 14, 2024
Autores: Zeyu Liu, Weicong Liang, Zhanhao Liang, Chong Luo, Ji Li, Gao Huang, Yuhui Yuan
cs.AI
Resumo
A renderização visual de texto representa um desafio fundamental para os modelos contemporâneos de geração de imagem a partir de texto, com o problema central residindo nas deficiências dos codificadores de texto. Para alcançar uma renderização precisa de texto, identificamos dois requisitos cruciais para os codificadores de texto: consciência de caracteres e alinhamento com glifos. Nossa solução envolve a criação de uma série de codificadores de texto personalizados, o Glyph-ByT5, por meio do ajuste fino do codificador ByT5, que é consciente de caracteres, utilizando um conjunto de dados cuidadosamente curado de pares glifo-texto. Apresentamos um método eficaz para integrar o Glyph-ByT5 com o SDXL, resultando na criação do modelo Glyph-SDXL para geração de imagens de design. Isso melhora significativamente a precisão da renderização de texto, aumentando-a de menos de 20% para quase 90% em nosso benchmark de imagens de design. É digno de nota a nova capacidade do Glyph-SDXL para renderização de parágrafos de texto, alcançando alta precisão ortográfica para dezenas a centenas de caracteres com layouts automáticos de múltiplas linhas. Por fim, ao ajustar o Glyph-SDXL com um pequeno conjunto de imagens fotorealísticas de alta qualidade contendo texto visual, demonstramos uma melhoria substancial nas capacidades de renderização de texto em cenas em imagens reais de domínio aberto. Esses resultados convincentes visam encorajar uma exploração mais aprofundada no design de codificadores de texto personalizados para tarefas diversas e desafiadoras.
English
Visual text rendering poses a fundamental challenge for contemporary
text-to-image generation models, with the core problem lying in text encoder
deficiencies. To achieve accurate text rendering, we identify two crucial
requirements for text encoders: character awareness and alignment with glyphs.
Our solution involves crafting a series of customized text encoder, Glyph-ByT5,
by fine-tuning the character-aware ByT5 encoder using a meticulously curated
paired glyph-text dataset. We present an effective method for integrating
Glyph-ByT5 with SDXL, resulting in the creation of the Glyph-SDXL model for
design image generation. This significantly enhances text rendering accuracy,
improving it from less than 20% to nearly 90% on our design image
benchmark. Noteworthy is Glyph-SDXL's newfound ability for text paragraph
rendering, achieving high spelling accuracy for tens to hundreds of characters
with automated multi-line layouts. Finally, through fine-tuning Glyph-SDXL with
a small set of high-quality, photorealistic images featuring visual text, we
showcase a substantial improvement in scene text rendering capabilities in
open-domain real images. These compelling outcomes aim to encourage further
exploration in designing customized text encoders for diverse and challenging
tasks.