Glyph-ByT5-v2 : Une base esthétique robuste pour un rendu visuel précis de texte multilingue

Résumé

Récemment, Glyph-ByT5 a atteint des performances très précises en matière de rendu visuel de texte dans les images de conception graphique. Cependant, il se concentre uniquement sur l'anglais et obtient des résultats relativement médiocres en termes d'attrait visuel. Dans ce travail, nous abordons ces deux limitations fondamentales en présentant Glyph-ByT5-v2 et Glyph-SDXL-v2, qui non seulement prennent en charge un rendu visuel de texte précis pour 10 langues différentes, mais atteignent également une bien meilleure qualité esthétique. Pour y parvenir, nous apportons les contributions suivantes : (i) la création d'un ensemble de données multilingue de haute qualité composé de plus d'un million de paires glyphe-texte et de 10 millions de paires image-texte de conception graphique couvrant neuf autres langues, (ii) la construction d'un benchmark multilingue de paragraphes visuels comprenant 1 000 invites, avec 100 pour chaque langue, afin d'évaluer la précision orthographique visuelle multilingue, et (iii) l'exploitation de la dernière approche d'apprentissage de préférences consciente des étapes pour améliorer la qualité esthétique visuelle. Grâce à la combinaison de ces techniques, nous proposons un encodeur de texte multilingue personnalisé puissant, Glyph-ByT5-v2, et un modèle de génération graphique esthétique robuste, Glyph-SDXL-v2, capable de prendre en charge une orthographe précise dans 10 langues différentes. Nous considérons notre travail comme une avancée significative, étant donné que les derniers modèles DALL-E3 et Ideogram 1.0 rencontrent encore des difficultés avec la tâche de rendu visuel de texte multilingue.

English

Recently, Glyph-ByT5 has achieved highly accurate visual text rendering performance in graphic design images. However, it still focuses solely on English and performs relatively poorly in terms of visual appeal. In this work, we address these two fundamental limitations by presenting Glyph-ByT5-v2 and Glyph-SDXL-v2, which not only support accurate visual text rendering for 10 different languages but also achieve much better aesthetic quality. To achieve this, we make the following contributions: (i) creating a high-quality multilingual glyph-text and graphic design dataset consisting of more than 1 million glyph-text pairs and 10 million graphic design image-text pairs covering nine other languages, (ii) building a multilingual visual paragraph benchmark consisting of 1,000 prompts, with 100 for each language, to assess multilingual visual spelling accuracy, and (iii) leveraging the latest step-aware preference learning approach to enhance the visual aesthetic quality. With the combination of these techniques, we deliver a powerful customized multilingual text encoder, Glyph-ByT5-v2, and a strong aesthetic graphic generation model, Glyph-SDXL-v2, that can support accurate spelling in 10 different languages. We perceive our work as a significant advancement, considering that the latest DALL-E3 and Ideogram 1.0 still struggle with the multilingual visual text rendering task.

Glyph-ByT5-v2 : Une base esthétique robuste pour un rendu visuel précis de texte multilingue

Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Rendering

Résumé

Support