ChatPaper.aiChatPaper

RepText: Renderizado de texto visual mediante replicación

RepText: Rendering Visual Text via Replicating

April 28, 2025
Autores: Haofan Wang, Yujia Xu, Yimeng Li, Junchen Li, Chaowei Zhang, Jing Wang, Kejia Yang, Zhibo Chen
cs.AI

Resumen

Aunque los modelos contemporáneos de generación de texto a imagen han logrado avances notables en la producción de imágenes visualmente atractivas, su capacidad para generar elementos tipográficos precisos y flexibles, especialmente en alfabetos no latinos, sigue siendo limitada. Para abordar estas limitaciones, partimos de una suposición ingenua: que la comprensión del texto es solo una condición suficiente para la representación del texto, pero no una condición necesaria. Basándonos en esto, presentamos RepText, cuyo objetivo es dotar a los modelos preentrenados de generación de texto a imagen monolingües con la capacidad de representar, o más precisamente, replicar, texto visual multilingüe en fuentes especificadas por el usuario, sin necesidad de comprenderlo realmente. Específicamente, adoptamos la configuración de ControlNet e integramos adicionalmente glifos y posiciones de texto representado independientes del idioma, lo que permite generar texto visual armonizado, permitiendo a los usuarios personalizar el contenido del texto, la fuente y la posición según sus necesidades. Para mejorar la precisión, se emplea una pérdida perceptual de texto junto con la pérdida de difusión. Además, para estabilizar el proceso de representación, en la fase de inferencia, inicializamos directamente con un glifo latente ruidoso en lugar de una inicialización aleatoria, y adoptamos máscaras de región para restringir la inyección de características solo al área del texto, evitando la distorsión del fondo. Realizamos extensos experimentos para verificar la efectividad de nuestro RepText en comparación con trabajos existentes; nuestro enfoque supera a los métodos de código abierto existentes y logra resultados comparables a los modelos nativos multilingües de código cerrado. Para ser más justos, también discutimos exhaustivamente sus limitaciones al final.
English
Although contemporary text-to-image generation models have achieved remarkable breakthroughs in producing visually appealing images, their capacity to generate precise and flexible typographic elements, especially non-Latin alphabets, remains constrained. To address these limitations, we start from an naive assumption that text understanding is only a sufficient condition for text rendering, but not a necessary condition. Based on this, we present RepText, which aims to empower pre-trained monolingual text-to-image generation models with the ability to accurately render, or more precisely, replicate, multilingual visual text in user-specified fonts, without the need to really understand them. Specifically, we adopt the setting from ControlNet and additionally integrate language agnostic glyph and position of rendered text to enable generating harmonized visual text, allowing users to customize text content, font and position on their needs. To improve accuracy, a text perceptual loss is employed along with the diffusion loss. Furthermore, to stabilize rendering process, at the inference phase, we directly initialize with noisy glyph latent instead of random initialization, and adopt region masks to restrict the feature injection to only the text region to avoid distortion of the background. We conducted extensive experiments to verify the effectiveness of our RepText relative to existing works, our approach outperforms existing open-source methods and achieves comparable results to native multi-language closed-source models. To be more fair, we also exhaustively discuss its limitations in the end.
PDF304April 29, 2025