ChatPaper.aiChatPaper

Glyph-ByT5: 정확한 시각적 텍스트 렌더링을 위한 맞춤형 텍스트 인코더

Glyph-ByT5: A Customized Text Encoder for Accurate Visual Text Rendering

March 14, 2024
저자: Zeyu Liu, Weicong Liang, Zhanhao Liang, Chong Luo, Ji Li, Gao Huang, Yuhui Yuan
cs.AI

초록

시각적 텍스트 렌더링은 현대의 텍스트-이미지 생성 모델에 있어 근본적인 과제로, 그 핵심 문제는 텍스트 인코더의 결함에 있습니다. 정확한 텍스트 렌더링을 달성하기 위해, 우리는 텍스트 인코더에 두 가지 중요한 요구사항을 확인했습니다: 문자 인식과 글리프와의 정렬입니다. 우리의 해결책은 문자 인식이 가능한 ByT5 인코더를 세심하게 선별된 글리프-텍스트 데이터셋으로 미세 조정하여, Glyph-ByT5라는 일련의 맞춤형 텍스트 인코더를 제작하는 것입니다. 우리는 Glyph-ByT5를 SDXL과 통합하는 효과적인 방법을 제시하여, 디자인 이미지 생성을 위한 Glyph-SDXL 모델을 개발했습니다. 이를 통해 텍스트 렌더링 정확도가 크게 향상되어, 디자인 이미지 벤치마크에서 20% 미만에서 거의 90%로 개선되었습니다. 특히 Glyph-SDXL은 텍스트 단락 렌더링 능력을 새롭게 획득하여, 수십에서 수백 개의 문자에 대해 높은 철자 정확도를 달성하며 자동 다중 줄 레이아웃을 구현했습니다. 마지막으로, 시각적 텍스트가 포함된 소규모의 고품질 포토리얼리스틱 이미지 세트로 Glyph-SDXL을 미세 조정함으로써, 오픈 도메인 실제 이미지에서의 장면 텍스트 렌더링 능력이 크게 개선되었음을 보여줍니다. 이러한 설득력 있는 결과는 다양한 도전적인 과제를 위한 맞춤형 텍스트 인코더 설계에 대한 추가 탐구를 촉진하고자 합니다.
English
Visual text rendering poses a fundamental challenge for contemporary text-to-image generation models, with the core problem lying in text encoder deficiencies. To achieve accurate text rendering, we identify two crucial requirements for text encoders: character awareness and alignment with glyphs. Our solution involves crafting a series of customized text encoder, Glyph-ByT5, by fine-tuning the character-aware ByT5 encoder using a meticulously curated paired glyph-text dataset. We present an effective method for integrating Glyph-ByT5 with SDXL, resulting in the creation of the Glyph-SDXL model for design image generation. This significantly enhances text rendering accuracy, improving it from less than 20% to nearly 90% on our design image benchmark. Noteworthy is Glyph-SDXL's newfound ability for text paragraph rendering, achieving high spelling accuracy for tens to hundreds of characters with automated multi-line layouts. Finally, through fine-tuning Glyph-SDXL with a small set of high-quality, photorealistic images featuring visual text, we showcase a substantial improvement in scene text rendering capabilities in open-domain real images. These compelling outcomes aim to encourage further exploration in designing customized text encoders for diverse and challenging tasks.

Summary

AI-Generated Summary

PDF181December 15, 2024