ChatPaper.aiChatPaper

Glyph-ByT5: Настраиваемый текстовый кодировщик для точного визуального отображения текста

Glyph-ByT5: A Customized Text Encoder for Accurate Visual Text Rendering

March 14, 2024
Авторы: Zeyu Liu, Weicong Liang, Zhanhao Liang, Chong Luo, Ji Li, Gao Huang, Yuhui Yuan
cs.AI

Аннотация

Визуальное отображение текста представляет собой фундаментальное вызов для современных моделей генерации текста в изображения, с основной проблемой, заключающейся в недостатках текстового кодировщика. Для достижения точного визуального отображения текста мы выделяем два важных требования к текстовым кодировщикам: осведомленность о символах и соответствие глифам. Наше решение включает создание серии настраиваемых текстовых кодировщиков, Glyph-ByT5, путем донастройки осведомленного о символах кодировщика ByT5 с использованием тщательно подобранного набора данных, содержащего пары глифов и текста. Мы представляем эффективный метод интеграции Glyph-ByT5 с SDXL, что приводит к созданию модели Glyph-SDXL для генерации дизайнов изображений. Это значительно повышает точность визуального отображения текста, улучшая ее с менее чем 20% до почти 90% на нашем бенчмарке дизайна изображений. Следует отметить, что у Glyph-SDXL появилась новая способность для визуального отображения текстовых абзацев, достигая высокой точности написания для десятков и сотен символов с автоматическими многострочными макетами. Наконец, путем донастройки Glyph-SDXL с небольшим набором высококачественных фотореалистичных изображений с визуальным текстом мы демонстрируем значительное улучшение возможностей визуального отображения текста в сценах на изображениях реального мира в открытой области. Эти убедительные результаты призваны поощрить дальнейшее исследование в области разработки настраиваемых текстовых кодировщиков для разнообразных и сложных задач.
English
Visual text rendering poses a fundamental challenge for contemporary text-to-image generation models, with the core problem lying in text encoder deficiencies. To achieve accurate text rendering, we identify two crucial requirements for text encoders: character awareness and alignment with glyphs. Our solution involves crafting a series of customized text encoder, Glyph-ByT5, by fine-tuning the character-aware ByT5 encoder using a meticulously curated paired glyph-text dataset. We present an effective method for integrating Glyph-ByT5 with SDXL, resulting in the creation of the Glyph-SDXL model for design image generation. This significantly enhances text rendering accuracy, improving it from less than 20% to nearly 90% on our design image benchmark. Noteworthy is Glyph-SDXL's newfound ability for text paragraph rendering, achieving high spelling accuracy for tens to hundreds of characters with automated multi-line layouts. Finally, through fine-tuning Glyph-SDXL with a small set of high-quality, photorealistic images featuring visual text, we showcase a substantial improvement in scene text rendering capabilities in open-domain real images. These compelling outcomes aim to encourage further exploration in designing customized text encoders for diverse and challenging tasks.

Summary

AI-Generated Summary

PDF181December 15, 2024