RepText : Rendu de texte visuel par réplication

papers.abstract

Bien que les modèles contemporains de génération d'images à partir de texte aient réalisé des avancées remarquables dans la production d'images visuellement attrayantes, leur capacité à générer des éléments typographiques précis et flexibles, en particulier pour les alphabets non latins, reste limitée. Pour répondre à ces limitations, nous partons d'une hypothèse naïve selon laquelle la compréhension du texte est une condition suffisante, mais non nécessaire, pour le rendu du texte. Sur cette base, nous présentons RepText, qui vise à doter les modèles pré-entraînés monolingues de génération d'images à partir de texte de la capacité de rendre, ou plus précisément, de reproduire avec précision du texte visuel multilingue dans des polices spécifiées par l'utilisateur, sans avoir besoin de vraiment le comprendre. Concrètement, nous adoptons le cadre de ControlNet et intégrons en plus des glyphes et des positions de texte rendus indépendants de la langue pour permettre la génération de texte visuel harmonisé, permettant aux utilisateurs de personnaliser le contenu, la police et la position du texte selon leurs besoins. Pour améliorer la précision, une perte perceptuelle du texte est utilisée en complément de la perte de diffusion. De plus, pour stabiliser le processus de rendu, lors de la phase d'inférence, nous initialisons directement avec un latent de glyphe bruité au lieu d'une initialisation aléatoire, et adoptons des masques de région pour limiter l'injection de caractéristiques à la seule région du texte afin d'éviter la distorsion de l'arrière-plan. Nous avons mené des expériences approfondies pour vérifier l'efficacité de notre RepText par rapport aux travaux existants. Notre approche surpasse les méthodes open-source existantes et obtient des résultats comparables aux modèles natifs multilingues propriétaires. Pour être plus équitable, nous discutons également exhaustivement de ses limitations à la fin.

English

Although contemporary text-to-image generation models have achieved remarkable breakthroughs in producing visually appealing images, their capacity to generate precise and flexible typographic elements, especially non-Latin alphabets, remains constrained. To address these limitations, we start from an naive assumption that text understanding is only a sufficient condition for text rendering, but not a necessary condition. Based on this, we present RepText, which aims to empower pre-trained monolingual text-to-image generation models with the ability to accurately render, or more precisely, replicate, multilingual visual text in user-specified fonts, without the need to really understand them. Specifically, we adopt the setting from ControlNet and additionally integrate language agnostic glyph and position of rendered text to enable generating harmonized visual text, allowing users to customize text content, font and position on their needs. To improve accuracy, a text perceptual loss is employed along with the diffusion loss. Furthermore, to stabilize rendering process, at the inference phase, we directly initialize with noisy glyph latent instead of random initialization, and adopt region masks to restrict the feature injection to only the text region to avoid distortion of the background. We conducted extensive experiments to verify the effectiveness of our RepText relative to existing works, our approach outperforms existing open-source methods and achieves comparable results to native multi-language closed-source models. To be more fair, we also exhaustively discuss its limitations in the end.

RepText : Rendu de texte visuel par réplication

RepText: Rendering Visual Text via Replicating

papers.abstract

Support