Glyph-ByT5-v2 : Une base esthétique robuste pour un rendu visuel précis de texte multilingue
Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Rendering
June 14, 2024
Auteurs: Zeyu Liu, Weicong Liang, Yiming Zhao, Bohan Chen, Ji Li, Yuhui Yuan
cs.AI
Résumé
Récemment, Glyph-ByT5 a atteint des performances très précises en matière de rendu visuel de texte dans les images de conception graphique. Cependant, il se concentre uniquement sur l'anglais et obtient des résultats relativement médiocres en termes d'attrait visuel. Dans ce travail, nous abordons ces deux limitations fondamentales en présentant Glyph-ByT5-v2 et Glyph-SDXL-v2, qui non seulement prennent en charge un rendu visuel de texte précis pour 10 langues différentes, mais atteignent également une bien meilleure qualité esthétique. Pour y parvenir, nous apportons les contributions suivantes : (i) la création d'un ensemble de données multilingue de haute qualité composé de plus d'un million de paires glyphe-texte et de 10 millions de paires image-texte de conception graphique couvrant neuf autres langues, (ii) la construction d'un benchmark multilingue de paragraphes visuels comprenant 1 000 invites, avec 100 pour chaque langue, afin d'évaluer la précision orthographique visuelle multilingue, et (iii) l'exploitation de la dernière approche d'apprentissage de préférences consciente des étapes pour améliorer la qualité esthétique visuelle. Grâce à la combinaison de ces techniques, nous proposons un encodeur de texte multilingue personnalisé puissant, Glyph-ByT5-v2, et un modèle de génération graphique esthétique robuste, Glyph-SDXL-v2, capable de prendre en charge une orthographe précise dans 10 langues différentes. Nous considérons notre travail comme une avancée significative, étant donné que les derniers modèles DALL-E3 et Ideogram 1.0 rencontrent encore des difficultés avec la tâche de rendu visuel de texte multilingue.
English
Recently, Glyph-ByT5 has achieved highly accurate visual text rendering
performance in graphic design images. However, it still focuses solely on
English and performs relatively poorly in terms of visual appeal. In this work,
we address these two fundamental limitations by presenting Glyph-ByT5-v2 and
Glyph-SDXL-v2, which not only support accurate visual text rendering for 10
different languages but also achieve much better aesthetic quality. To achieve
this, we make the following contributions: (i) creating a high-quality
multilingual glyph-text and graphic design dataset consisting of more than 1
million glyph-text pairs and 10 million graphic design image-text pairs
covering nine other languages, (ii) building a multilingual visual paragraph
benchmark consisting of 1,000 prompts, with 100 for each language, to assess
multilingual visual spelling accuracy, and (iii) leveraging the latest
step-aware preference learning approach to enhance the visual aesthetic
quality. With the combination of these techniques, we deliver a powerful
customized multilingual text encoder, Glyph-ByT5-v2, and a strong aesthetic
graphic generation model, Glyph-SDXL-v2, that can support accurate spelling in
10 different languages. We perceive our work as a significant advancement,
considering that the latest DALL-E3 and Ideogram 1.0 still struggle with the
multilingual visual text rendering task.Summary
AI-Generated Summary