Glyph-ByT5-v2: Надежная эстетическая базовая линия для точного многоязычного визуального отображения текста.
Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Rendering
June 14, 2024
Авторы: Zeyu Liu, Weicong Liang, Yiming Zhao, Bohan Chen, Ji Li, Yuhui Yuan
cs.AI
Аннотация
Недавно Glyph-ByT5 достиг высокой точности визуального воспроизведения текста на изображениях графического дизайна. Однако он все еще сосредоточен исключительно на английском языке и показывает относительно низкое качество визуальной привлекательности. В данной работе мы решаем эти две фундаментальные ограничения, представляя Glyph-ByT5-v2 и Glyph-SDXL-v2, которые не только поддерживают точное визуальное воспроизведение текста для 10 различных языков, но также достигают значительно лучшего эстетического качества. Для достижения этого мы вносим следующие вклады: (i) создание высококачественного многоязычного набора данных глиф-текст и графического дизайна, состоящего из более чем 1 миллиона пар глиф-текст и 10 миллионов пар изображение-текст графического дизайна на девяти других языках, (ii) создание многоязычного визуального параграфического бенчмарка, состоящего из 1 000 запросов, по 100 для каждого языка, для оценки многоязычной точности визуального написания, и (iii) использование последнего подхода к обучению с предпочтениями, осведомленного о шагах, для улучшения визуального эстетического качества. Совместно с использованием этих техник мы представляем мощный настраиваемый многоязычный текстовый кодер Glyph-ByT5-v2 и сильную модель генерации графического дизайна с хорошим эстетическим качеством, Glyph-SDXL-v2, которые могут поддерживать точное написание на 10 различных языках. Мы рассматриваем нашу работу как значительный прогресс, учитывая, что последние DALL-E3 и Ideogram 1.0 все еще испытывают трудности с многоязычной задачей визуального воспроизведения текста.
English
Recently, Glyph-ByT5 has achieved highly accurate visual text rendering
performance in graphic design images. However, it still focuses solely on
English and performs relatively poorly in terms of visual appeal. In this work,
we address these two fundamental limitations by presenting Glyph-ByT5-v2 and
Glyph-SDXL-v2, which not only support accurate visual text rendering for 10
different languages but also achieve much better aesthetic quality. To achieve
this, we make the following contributions: (i) creating a high-quality
multilingual glyph-text and graphic design dataset consisting of more than 1
million glyph-text pairs and 10 million graphic design image-text pairs
covering nine other languages, (ii) building a multilingual visual paragraph
benchmark consisting of 1,000 prompts, with 100 for each language, to assess
multilingual visual spelling accuracy, and (iii) leveraging the latest
step-aware preference learning approach to enhance the visual aesthetic
quality. With the combination of these techniques, we deliver a powerful
customized multilingual text encoder, Glyph-ByT5-v2, and a strong aesthetic
graphic generation model, Glyph-SDXL-v2, that can support accurate spelling in
10 different languages. We perceive our work as a significant advancement,
considering that the latest DALL-E3 and Ideogram 1.0 still struggle with the
multilingual visual text rendering task.Summary
AI-Generated Summary