Glyph-ByT5: Un Codificador de Texto Personalizado para la Representación Precisa de Texto Visual
Glyph-ByT5: A Customized Text Encoder for Accurate Visual Text Rendering
March 14, 2024
Autores: Zeyu Liu, Weicong Liang, Zhanhao Liang, Chong Luo, Ji Li, Gao Huang, Yuhui Yuan
cs.AI
Resumen
La representación visual de texto plantea un desafío fundamental para los modelos contemporáneos de generación de imágenes a partir de texto, con el problema central radicando en las deficiencias de los codificadores de texto. Para lograr una representación precisa del texto, identificamos dos requisitos cruciales para los codificadores de texto: conciencia de caracteres y alineación con glifos. Nuestra solución implica la creación de una serie de codificadores de texto personalizados, Glyph-ByT5, mediante el ajuste fino del codificador ByT5, consciente de caracteres, utilizando un conjunto de datos de pares glifo-texto cuidadosamente seleccionado. Presentamos un método efectivo para integrar Glyph-ByT5 con SDXL, lo que resulta en la creación del modelo Glyph-SDXL para la generación de imágenes de diseño. Esto mejora significativamente la precisión en la representación de texto, aumentándola de menos del 20% a casi el 90% en nuestro punto de referencia de imágenes de diseño. Es destacable la nueva capacidad de Glyph-SDXL para representar párrafos de texto, logrando una alta precisión ortográfica para decenas o cientos de caracteres con diseños automáticos de múltiples líneas. Finalmente, mediante el ajuste fino de Glyph-SDXL con un pequeño conjunto de imágenes fotorealísticas de alta calidad que presentan texto visual, demostramos una mejora sustancial en las capacidades de representación de texto en escenas en imágenes reales de dominio abierto. Estos resultados convincentes tienen como objetivo fomentar una mayor exploración en el diseño de codificadores de texto personalizados para diversas tareas desafiantes.
English
Visual text rendering poses a fundamental challenge for contemporary
text-to-image generation models, with the core problem lying in text encoder
deficiencies. To achieve accurate text rendering, we identify two crucial
requirements for text encoders: character awareness and alignment with glyphs.
Our solution involves crafting a series of customized text encoder, Glyph-ByT5,
by fine-tuning the character-aware ByT5 encoder using a meticulously curated
paired glyph-text dataset. We present an effective method for integrating
Glyph-ByT5 with SDXL, resulting in the creation of the Glyph-SDXL model for
design image generation. This significantly enhances text rendering accuracy,
improving it from less than 20% to nearly 90% on our design image
benchmark. Noteworthy is Glyph-SDXL's newfound ability for text paragraph
rendering, achieving high spelling accuracy for tens to hundreds of characters
with automated multi-line layouts. Finally, through fine-tuning Glyph-SDXL with
a small set of high-quality, photorealistic images featuring visual text, we
showcase a substantial improvement in scene text rendering capabilities in
open-domain real images. These compelling outcomes aim to encourage further
exploration in designing customized text encoders for diverse and challenging
tasks.Summary
AI-Generated Summary