RepText : Rendu de texte visuel par réplicationRepText: Rendering Visual Text via Replicating
Bien que les modĂšles contemporains de gĂ©nĂ©ration d'images Ă partir de texte aient rĂ©alisĂ© des avancĂ©es remarquables dans la production d'images visuellement attrayantes, leur capacitĂ© Ă gĂ©nĂ©rer des Ă©lĂ©ments typographiques prĂ©cis et flexibles, en particulier pour les alphabets non latins, reste limitĂ©e. Pour rĂ©pondre Ă ces limitations, nous partons d'une hypothĂšse naĂŻve selon laquelle la comprĂ©hension du texte est une condition suffisante, mais non nĂ©cessaire, pour le rendu du texte. Sur cette base, nous prĂ©sentons RepText, qui vise Ă doter les modĂšles prĂ©-entraĂźnĂ©s monolingues de gĂ©nĂ©ration d'images Ă partir de texte de la capacitĂ© de rendre, ou plus prĂ©cisĂ©ment, de reproduire avec prĂ©cision du texte visuel multilingue dans des polices spĂ©cifiĂ©es par l'utilisateur, sans avoir besoin de vraiment le comprendre. ConcrĂštement, nous adoptons le cadre de ControlNet et intĂ©grons en plus des glyphes et des positions de texte rendus indĂ©pendants de la langue pour permettre la gĂ©nĂ©ration de texte visuel harmonisĂ©, permettant aux utilisateurs de personnaliser le contenu, la police et la position du texte selon leurs besoins. Pour amĂ©liorer la prĂ©cision, une perte perceptuelle du texte est utilisĂ©e en complĂ©ment de la perte de diffusion. De plus, pour stabiliser le processus de rendu, lors de la phase d'infĂ©rence, nous initialisons directement avec un latent de glyphe bruitĂ© au lieu d'une initialisation alĂ©atoire, et adoptons des masques de rĂ©gion pour limiter l'injection de caractĂ©ristiques Ă la seule rĂ©gion du texte afin d'Ă©viter la distorsion de l'arriĂšre-plan. Nous avons menĂ© des expĂ©riences approfondies pour vĂ©rifier l'efficacitĂ© de notre RepText par rapport aux travaux existants. Notre approche surpasse les mĂ©thodes open-source existantes et obtient des rĂ©sultats comparables aux modĂšles natifs multilingues propriĂ©taires. Pour ĂȘtre plus Ă©quitable, nous discutons Ă©galement exhaustivement de ses limitations Ă la fin.