ChatPaper.aiChatPaper

Glyph-ByT5-v2: Una Base Estética Sólida para la Representación Visual Precisa de Texto Multilingüe

Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Rendering

June 14, 2024
Autores: Zeyu Liu, Weicong Liang, Yiming Zhao, Bohan Chen, Ji Li, Yuhui Yuan
cs.AI

Resumen

Recientemente, Glyph-ByT5 ha logrado un rendimiento altamente preciso en la representación visual de texto en imágenes de diseño gráfico. Sin embargo, sigue centrándose únicamente en el inglés y tiene un desempeño relativamente pobre en términos de atractivo visual. En este trabajo, abordamos estas dos limitaciones fundamentales presentando Glyph-ByT5-v2 y Glyph-SDXL-v2, que no solo admiten una representación visual precisa de texto en 10 idiomas diferentes, sino que también logran una calidad estética mucho mejor. Para alcanzar esto, realizamos las siguientes contribuciones: (i) la creación de un conjunto de datos de alta calidad de texto glífico multilingüe y diseño gráfico, que consta de más de 1 millón de pares de texto glífico y 10 millones de pares de imagen-texto de diseño gráfico que cubren otros nueve idiomas, (ii) la construcción de un benchmark de párrafos visuales multilingüe que consta de 1,000 indicaciones, con 100 para cada idioma, para evaluar la precisión ortográfica visual multilingüe, y (iii) el aprovechamiento del último enfoque de aprendizaje de preferencias consciente del paso para mejorar la calidad estética visual. Con la combinación de estas técnicas, ofrecemos un potente codificador de texto multilingüe personalizado, Glyph-ByT5-v2, y un modelo de generación gráfica estéticamente sólido, Glyph-SDXL-v2, que puede admitir una ortografía precisa en 10 idiomas diferentes. Consideramos nuestro trabajo como un avance significativo, teniendo en cuenta que los últimos DALL-E3 e Ideogram 1.0 aún tienen dificultades con la tarea de representación visual de texto multilingüe.
English
Recently, Glyph-ByT5 has achieved highly accurate visual text rendering performance in graphic design images. However, it still focuses solely on English and performs relatively poorly in terms of visual appeal. In this work, we address these two fundamental limitations by presenting Glyph-ByT5-v2 and Glyph-SDXL-v2, which not only support accurate visual text rendering for 10 different languages but also achieve much better aesthetic quality. To achieve this, we make the following contributions: (i) creating a high-quality multilingual glyph-text and graphic design dataset consisting of more than 1 million glyph-text pairs and 10 million graphic design image-text pairs covering nine other languages, (ii) building a multilingual visual paragraph benchmark consisting of 1,000 prompts, with 100 for each language, to assess multilingual visual spelling accuracy, and (iii) leveraging the latest step-aware preference learning approach to enhance the visual aesthetic quality. With the combination of these techniques, we deliver a powerful customized multilingual text encoder, Glyph-ByT5-v2, and a strong aesthetic graphic generation model, Glyph-SDXL-v2, that can support accurate spelling in 10 different languages. We perceive our work as a significant advancement, considering that the latest DALL-E3 and Ideogram 1.0 still struggle with the multilingual visual text rendering task.

Summary

AI-Generated Summary

PDF222December 6, 2024