Glyph-ByT5-v2: Una Solida Baseline Estetica per il Rendering Precise del Testo Visivo Multilingue
Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Rendering
June 14, 2024
Autori: Zeyu Liu, Weicong Liang, Yiming Zhao, Bohan Chen, Ji Li, Yuhui Yuan
cs.AI
Abstract
Recentemente, Glyph-ByT5 ha ottenuto prestazioni altamente accurate nel rendering visivo del testo nelle immagini di design grafico. Tuttavia, si concentra ancora esclusivamente sull'inglese e presenta risultati relativamente scarsi in termini di appeal visivo. In questo lavoro, affrontiamo queste due limitazioni fondamentali presentando Glyph-ByT5-v2 e Glyph-SDXL-v2, che non solo supportano un rendering visivo accurato del testo per 10 lingue diverse, ma raggiungono anche una qualità estetica molto migliore. Per ottenere ciò, apportiamo i seguenti contributi: (i) creazione di un dataset multilingue di alta qualità composto da coppie glyph-testo e immagini di design grafico, con oltre 1 milione di coppie glyph-testo e 10 milioni di coppie immagine-testo che coprono altre nove lingue, (ii) costruzione di un benchmark multilingue per paragrafi visivi composto da 1.000 prompt, con 100 per ciascuna lingua, per valutare l'accuratezza ortografica visiva multilingue, e (iii) utilizzo del più recente approccio di apprendimento delle preferenze step-aware per migliorare la qualità estetica visiva. Combinando queste tecniche, forniamo un potente codificatore di testo personalizzato multilingue, Glyph-ByT5-v2, e un robusto modello di generazione grafica estetica, Glyph-SDXL-v2, in grado di supportare un'ortografia accurata in 10 lingue diverse. Consideriamo il nostro lavoro un progresso significativo, dato che i più recenti DALL-E3 e Ideogram 1.0 continuano a incontrare difficoltà nel compito di rendering visivo del testo multilingue.
English
Recently, Glyph-ByT5 has achieved highly accurate visual text rendering
performance in graphic design images. However, it still focuses solely on
English and performs relatively poorly in terms of visual appeal. In this work,
we address these two fundamental limitations by presenting Glyph-ByT5-v2 and
Glyph-SDXL-v2, which not only support accurate visual text rendering for 10
different languages but also achieve much better aesthetic quality. To achieve
this, we make the following contributions: (i) creating a high-quality
multilingual glyph-text and graphic design dataset consisting of more than 1
million glyph-text pairs and 10 million graphic design image-text pairs
covering nine other languages, (ii) building a multilingual visual paragraph
benchmark consisting of 1,000 prompts, with 100 for each language, to assess
multilingual visual spelling accuracy, and (iii) leveraging the latest
step-aware preference learning approach to enhance the visual aesthetic
quality. With the combination of these techniques, we deliver a powerful
customized multilingual text encoder, Glyph-ByT5-v2, and a strong aesthetic
graphic generation model, Glyph-SDXL-v2, that can support accurate spelling in
10 different languages. We perceive our work as a significant advancement,
considering that the latest DALL-E3 and Ideogram 1.0 still struggle with the
multilingual visual text rendering task.