ChatPaper.aiChatPaper

Glyph-ByT5-v2: Uma Base Estética Robusta para Renderização Precisa de Texto Visual Multilíngue

Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Rendering

June 14, 2024
Autores: Zeyu Liu, Weicong Liang, Yiming Zhao, Bohan Chen, Ji Li, Yuhui Yuan
cs.AI

Resumo

Recentemente, o Glyph-ByT5 alcançou um desempenho altamente preciso na renderização de texto visual em imagens de design gráfico. No entanto, ele ainda se concentra exclusivamente no inglês e tem um desempenho relativamente fraco em termos de apelo visual. Neste trabalho, abordamos essas duas limitações fundamentais ao apresentar o Glyph-ByT5-v2 e o Glyph-SDXL-v2, que não apenas suportam a renderização precisa de texto visual para 10 idiomas diferentes, mas também alcançam uma qualidade estética muito melhor. Para isso, realizamos as seguintes contribuições: (i) criação de um conjunto de dados de alta qualidade de texto glífico e design gráfico multilíngue, composto por mais de 1 milhão de pares de texto glífico e 10 milhões de pares de imagem-texto de design gráfico, abrangendo nove outros idiomas, (ii) construção de um benchmark de parágrafo visual multilíngue composto por 1.000 prompts, com 100 para cada idioma, para avaliar a precisão ortográfica visual multilíngue, e (iii) aproveitamento da mais recente abordagem de aprendizado de preferência consciente do passo para melhorar a qualidade estética visual. Com a combinação dessas técnicas, entregamos um poderoso codificador de texto multilíngue personalizado, o Glyph-ByT5-v2, e um forte modelo de geração gráfica estética, o Glyph-SDXL-v2, que pode suportar a ortografia precisa em 10 idiomas diferentes. Consideramos nosso trabalho um avanço significativo, visto que os mais recentes DALL-E3 e Ideogram 1.0 ainda enfrentam dificuldades com a tarefa de renderização de texto visual multilíngue.
English
Recently, Glyph-ByT5 has achieved highly accurate visual text rendering performance in graphic design images. However, it still focuses solely on English and performs relatively poorly in terms of visual appeal. In this work, we address these two fundamental limitations by presenting Glyph-ByT5-v2 and Glyph-SDXL-v2, which not only support accurate visual text rendering for 10 different languages but also achieve much better aesthetic quality. To achieve this, we make the following contributions: (i) creating a high-quality multilingual glyph-text and graphic design dataset consisting of more than 1 million glyph-text pairs and 10 million graphic design image-text pairs covering nine other languages, (ii) building a multilingual visual paragraph benchmark consisting of 1,000 prompts, with 100 for each language, to assess multilingual visual spelling accuracy, and (iii) leveraging the latest step-aware preference learning approach to enhance the visual aesthetic quality. With the combination of these techniques, we deliver a powerful customized multilingual text encoder, Glyph-ByT5-v2, and a strong aesthetic graphic generation model, Glyph-SDXL-v2, that can support accurate spelling in 10 different languages. We perceive our work as a significant advancement, considering that the latest DALL-E3 and Ideogram 1.0 still struggle with the multilingual visual text rendering task.
PDF222December 6, 2024