RepText: Визуализация текста через репликацию
RepText: Rendering Visual Text via Replicating
April 28, 2025
Авторы: Haofan Wang, Yujia Xu, Yimeng Li, Junchen Li, Chaowei Zhang, Jing Wang, Kejia Yang, Zhibo Chen
cs.AI
Аннотация
Хотя современные модели генерации изображений из текста достигли значительных прорывов в создании визуально привлекательных изображений, их способность генерировать точные и гибкие типографические элементы, особенно для нелатинских алфавитов, остается ограниченной. Чтобы устранить эти ограничения, мы исходим из наивного предположения, что понимание текста является лишь достаточным, но не необходимым условием для его визуализации. На основе этого мы представляем RepText, который призван расширить возможности предварительно обученных монолингвальных моделей генерации изображений из текста, позволяя им точно визуализировать, или, точнее, воспроизводить, многоязычный визуальный текст в указанных пользователем шрифтах, без необходимости его реального понимания. В частности, мы используем настройки из ControlNet и дополнительно интегрируем языково-независимые глифы и позиции визуализированного текста, чтобы обеспечить генерацию гармоничного визуального текста, позволяя пользователям настраивать содержание текста, шрифт и позицию в соответствии с их потребностями. Для повышения точности используется перцептивная потеря текста наряду с диффузионной потерей. Кроме того, для стабилизации процесса визуализации на этапе вывода мы напрямую инициализируем шумные латентные глифы вместо случайной инициализации и применяем маски областей, чтобы ограничить инъекцию признаков только областью текста, избегая искажения фона. Мы провели обширные эксперименты, чтобы подтвердить эффективность нашего RepText по сравнению с существующими работами. Наш подход превосходит существующие открытые методы и достигает сопоставимых результатов с нативными многоязычными закрытыми моделями. Для большей справедливости мы также подробно обсуждаем его ограничения в конце.
English
Although contemporary text-to-image generation models have achieved
remarkable breakthroughs in producing visually appealing images, their capacity
to generate precise and flexible typographic elements, especially non-Latin
alphabets, remains constrained. To address these limitations, we start from an
naive assumption that text understanding is only a sufficient condition for
text rendering, but not a necessary condition. Based on this, we present
RepText, which aims to empower pre-trained monolingual text-to-image generation
models with the ability to accurately render, or more precisely, replicate,
multilingual visual text in user-specified fonts, without the need to really
understand them. Specifically, we adopt the setting from ControlNet and
additionally integrate language agnostic glyph and position of rendered text to
enable generating harmonized visual text, allowing users to customize text
content, font and position on their needs. To improve accuracy, a text
perceptual loss is employed along with the diffusion loss. Furthermore, to
stabilize rendering process, at the inference phase, we directly initialize
with noisy glyph latent instead of random initialization, and adopt region
masks to restrict the feature injection to only the text region to avoid
distortion of the background. We conducted extensive experiments to verify the
effectiveness of our RepText relative to existing works, our approach
outperforms existing open-source methods and achieves comparable results to
native multi-language closed-source models. To be more fair, we also
exhaustively discuss its limitations in the end.Summary
AI-Generated Summary