ChatPaper.aiChatPaper

Glyph-ByT5-v2: Een robuust esthetisch uitgangspunt voor nauwkeurige meertalige visuele tekstweergave

Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Rendering

June 14, 2024
Auteurs: Zeyu Liu, Weicong Liang, Yiming Zhao, Bohan Chen, Ji Li, Yuhui Yuan
cs.AI

Samenvatting

Recentelijk heeft Glyph-ByT5 zeer nauwkeurige visuele tekstweergaveprestaties bereikt in grafisch ontworpen afbeeldingen. Het richt zich echter nog steeds uitsluitend op Engels en presteert relatief slecht wat betreft visuele aantrekkingskracht. In dit werk pakken we deze twee fundamentele beperkingen aan door Glyph-ByT5-v2 en Glyph-SDXL-v2 te presenteren, die niet alleen nauwkeurige visuele tekstweergave ondersteunen voor 10 verschillende talen, maar ook een veel betere esthetische kwaliteit bereiken. Om dit te bereiken, leveren we de volgende bijdragen: (i) het creëren van een hoogwaardige meertalige glyph-tekst- en grafisch ontwerpdataset bestaande uit meer dan 1 miljoen glyph-tekstparen en 10 miljoen grafisch ontworpen afbeelding-tekstparen die negen andere talen omvatten, (ii) het opbouwen van een meertalige visuele paragraafbenchmark bestaande uit 1.000 prompts, met 100 voor elke taal, om de meertalige visuele spellingnauwkeurigheid te beoordelen, en (iii) het benutten van de nieuwste stapbewuste voorkeursleerbenadering om de visuele esthetische kwaliteit te verbeteren. Met de combinatie van deze technieken leveren we een krachtige aangepaste meertalige tekstencoder, Glyph-ByT5-v2, en een sterk esthetisch grafisch generatiemodel, Glyph-SDXL-v2, dat nauwkeurige spelling in 10 verschillende talen kan ondersteunen. We beschouwen ons werk als een significante vooruitgang, aangezien de nieuwste DALL-E3 en Ideogram 1.0 nog steeds moeite hebben met de meertalige visuele tekstweergavetaak.
English
Recently, Glyph-ByT5 has achieved highly accurate visual text rendering performance in graphic design images. However, it still focuses solely on English and performs relatively poorly in terms of visual appeal. In this work, we address these two fundamental limitations by presenting Glyph-ByT5-v2 and Glyph-SDXL-v2, which not only support accurate visual text rendering for 10 different languages but also achieve much better aesthetic quality. To achieve this, we make the following contributions: (i) creating a high-quality multilingual glyph-text and graphic design dataset consisting of more than 1 million glyph-text pairs and 10 million graphic design image-text pairs covering nine other languages, (ii) building a multilingual visual paragraph benchmark consisting of 1,000 prompts, with 100 for each language, to assess multilingual visual spelling accuracy, and (iii) leveraging the latest step-aware preference learning approach to enhance the visual aesthetic quality. With the combination of these techniques, we deliver a powerful customized multilingual text encoder, Glyph-ByT5-v2, and a strong aesthetic graphic generation model, Glyph-SDXL-v2, that can support accurate spelling in 10 different languages. We perceive our work as a significant advancement, considering that the latest DALL-E3 and Ideogram 1.0 still struggle with the multilingual visual text rendering task.
PDF222January 17, 2026