RepText : Rendu de texte visuel par réplication
RepText: Rendering Visual Text via Replicating
April 28, 2025
Auteurs: Haofan Wang, Yujia Xu, Yimeng Li, Junchen Li, Chaowei Zhang, Jing Wang, Kejia Yang, Zhibo Chen
cs.AI
Résumé
Bien que les modèles contemporains de génération d'images à partir de texte aient réalisé des avancées remarquables dans la production d'images visuellement attrayantes, leur capacité à générer des éléments typographiques précis et flexibles, en particulier pour les alphabets non latins, reste limitée. Pour répondre à ces limitations, nous partons d'une hypothèse naïve selon laquelle la compréhension du texte est une condition suffisante, mais non nécessaire, pour le rendu du texte. Sur cette base, nous présentons RepText, qui vise à doter les modèles pré-entraînés monolingues de génération d'images à partir de texte de la capacité de rendre, ou plus précisément, de reproduire avec précision du texte visuel multilingue dans des polices spécifiées par l'utilisateur, sans avoir besoin de vraiment le comprendre. Concrètement, nous adoptons le cadre de ControlNet et intégrons en plus des glyphes et des positions de texte rendus indépendants de la langue pour permettre la génération de texte visuel harmonisé, permettant aux utilisateurs de personnaliser le contenu, la police et la position du texte selon leurs besoins. Pour améliorer la précision, une perte perceptuelle du texte est utilisée en complément de la perte de diffusion. De plus, pour stabiliser le processus de rendu, lors de la phase d'inférence, nous initialisons directement avec un latent de glyphe bruité au lieu d'une initialisation aléatoire, et adoptons des masques de région pour limiter l'injection de caractéristiques à la seule région du texte afin d'éviter la distorsion de l'arrière-plan. Nous avons mené des expériences approfondies pour vérifier l'efficacité de notre RepText par rapport aux travaux existants. Notre approche surpasse les méthodes open-source existantes et obtient des résultats comparables aux modèles natifs multilingues propriétaires. Pour être plus équitable, nous discutons également exhaustivement de ses limitations à la fin.
English
Although contemporary text-to-image generation models have achieved
remarkable breakthroughs in producing visually appealing images, their capacity
to generate precise and flexible typographic elements, especially non-Latin
alphabets, remains constrained. To address these limitations, we start from an
naive assumption that text understanding is only a sufficient condition for
text rendering, but not a necessary condition. Based on this, we present
RepText, which aims to empower pre-trained monolingual text-to-image generation
models with the ability to accurately render, or more precisely, replicate,
multilingual visual text in user-specified fonts, without the need to really
understand them. Specifically, we adopt the setting from ControlNet and
additionally integrate language agnostic glyph and position of rendered text to
enable generating harmonized visual text, allowing users to customize text
content, font and position on their needs. To improve accuracy, a text
perceptual loss is employed along with the diffusion loss. Furthermore, to
stabilize rendering process, at the inference phase, we directly initialize
with noisy glyph latent instead of random initialization, and adopt region
masks to restrict the feature injection to only the text region to avoid
distortion of the background. We conducted extensive experiments to verify the
effectiveness of our RepText relative to existing works, our approach
outperforms existing open-source methods and achieves comparable results to
native multi-language closed-source models. To be more fair, we also
exhaustively discuss its limitations in the end.Summary
AI-Generated Summary