ChatPaper.aiChatPaper

Glyph-ByT5-v2: Eine starke ästhetische Grundlinie für präzise multilinguale visuelle Textdarstellung.

Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Rendering

June 14, 2024
Autoren: Zeyu Liu, Weicong Liang, Yiming Zhao, Bohan Chen, Ji Li, Yuhui Yuan
cs.AI

Zusammenfassung

In letzter Zeit hat Glyph-ByT5 eine sehr genaue visuelle Textdarstellungsleistung in Grafikdesignbildern erreicht. Es konzentriert sich jedoch immer noch ausschließlich auf Englisch und weist in Bezug auf die visuelle Attraktivität relativ schlechte Leistungen auf. In dieser Arbeit adressieren wir diese beiden grundlegenden Einschränkungen, indem wir Glyph-ByT5-v2 und Glyph-SDXL-v2 vorstellen, die nicht nur eine genaue visuelle Textdarstellung für 10 verschiedene Sprachen unterstützen, sondern auch eine deutlich bessere ästhetische Qualität erreichen. Um dies zu erreichen, leisten wir folgende Beiträge: (i) Erstellung eines hochwertigen mehrsprachigen Glyphen-Text- und Grafikdesign-Datensatzes, bestehend aus mehr als 1 Million Glyphen-Text-Paaren und 10 Millionen Grafikdesign-Bild-Text-Paaren in neun anderen Sprachen, (ii) Aufbau eines mehrsprachigen visuellen Absatz-Benchmark, bestehend aus 1.000 Anfragen, mit jeweils 100 für jede Sprache, um die mehrsprachige visuelle Rechtschreibgenauigkeit zu bewerten, und (iii) Nutzung des neuesten schrittbewussten Präferenzlernansatzes zur Verbesserung der visuellen ästhetischen Qualität. Durch die Kombination dieser Techniken liefern wir einen leistungsstarken maßgeschneiderten mehrsprachigen Textencoder, Glyph-ByT5-v2, und ein starkes ästhetisches Grafikerzeugungsmodell, Glyph-SDXL-v2, das eine genaue Rechtschreibung in 10 verschiedenen Sprachen unterstützen kann. Wir betrachten unsere Arbeit als einen bedeutenden Fortschritt, wenn man bedenkt, dass die neuesten DALL-E3 und Ideogram 1.0 nach wie vor mit der mehrsprachigen visuellen Textdarstellungsaufgabe zu kämpfen haben.
English
Recently, Glyph-ByT5 has achieved highly accurate visual text rendering performance in graphic design images. However, it still focuses solely on English and performs relatively poorly in terms of visual appeal. In this work, we address these two fundamental limitations by presenting Glyph-ByT5-v2 and Glyph-SDXL-v2, which not only support accurate visual text rendering for 10 different languages but also achieve much better aesthetic quality. To achieve this, we make the following contributions: (i) creating a high-quality multilingual glyph-text and graphic design dataset consisting of more than 1 million glyph-text pairs and 10 million graphic design image-text pairs covering nine other languages, (ii) building a multilingual visual paragraph benchmark consisting of 1,000 prompts, with 100 for each language, to assess multilingual visual spelling accuracy, and (iii) leveraging the latest step-aware preference learning approach to enhance the visual aesthetic quality. With the combination of these techniques, we deliver a powerful customized multilingual text encoder, Glyph-ByT5-v2, and a strong aesthetic graphic generation model, Glyph-SDXL-v2, that can support accurate spelling in 10 different languages. We perceive our work as a significant advancement, considering that the latest DALL-E3 and Ideogram 1.0 still struggle with the multilingual visual text rendering task.

Summary

AI-Generated Summary

PDF222December 6, 2024