RepText: Visuele tekst weergeven via replicatie
RepText: Rendering Visual Text via Replicating
April 28, 2025
Auteurs: Haofan Wang, Yujia Xu, Yimeng Li, Junchen Li, Chaowei Zhang, Jing Wang, Kejia Yang, Zhibo Chen
cs.AI
Samenvatting
Hoewel hedendaagse tekst-naar-beeldgeneratiemodellen opmerkelijke doorbraken hebben bereikt in het produceren van visueel aantrekkelijke afbeeldingen, blijft hun vermogen om precieze en flexibele typografische elementen te genereren, met name niet-Latijnse alfabetten, beperkt. Om deze beperkingen aan te pakken, gaan we uit van een naïeve aanname dat tekstbegrip slechts een voldoende voorwaarde is voor tekstweergave, maar geen noodzakelijke voorwaarde. Op basis hiervan presenteren we RepText, dat als doel heeft om vooraf getrainde eentalige tekst-naar-beeldgeneratiemodellen in staat te stellen om meertalige visuele tekst nauwkeurig weer te geven, of meer precies, te repliceren, in door de gebruiker gespecificeerde lettertypen, zonder dat het nodig is om deze tekst echt te begrijpen. Specifiek nemen we de instelling van ControlNet over en integreren we daarnaast taalagnostische glyphs en de positie van weergegeven tekst om het genereren van harmonieuze visuele tekst mogelijk te maken, waardoor gebruikers tekstinhoud, lettertype en positie kunnen aanpassen naar hun behoeften. Om de nauwkeurigheid te verbeteren, wordt een tekstperceptieverlies gebruikt naast het diffusieverlies. Verder, om het weergaveproces te stabiliseren, initialiseren we tijdens de inferentiefase direct met een ruizige glyph latent in plaats van willekeurige initialisatie, en gebruiken we regiomaskers om de feature-injectie te beperken tot alleen het tekstgebied om vervorming van de achtergrond te voorkomen. We hebben uitgebreide experimenten uitgevoerd om de effectiviteit van onze RepText te verifiëren ten opzichte van bestaande werken, waarbij onze aanpak de bestaande open-source methoden overtreft en vergelijkbare resultaten behaalt als native meertalige closed-source modellen. Om eerlijker te zijn, bespreken we aan het einde ook uitgebreid de beperkingen ervan.
English
Although contemporary text-to-image generation models have achieved
remarkable breakthroughs in producing visually appealing images, their capacity
to generate precise and flexible typographic elements, especially non-Latin
alphabets, remains constrained. To address these limitations, we start from an
naive assumption that text understanding is only a sufficient condition for
text rendering, but not a necessary condition. Based on this, we present
RepText, which aims to empower pre-trained monolingual text-to-image generation
models with the ability to accurately render, or more precisely, replicate,
multilingual visual text in user-specified fonts, without the need to really
understand them. Specifically, we adopt the setting from ControlNet and
additionally integrate language agnostic glyph and position of rendered text to
enable generating harmonized visual text, allowing users to customize text
content, font and position on their needs. To improve accuracy, a text
perceptual loss is employed along with the diffusion loss. Furthermore, to
stabilize rendering process, at the inference phase, we directly initialize
with noisy glyph latent instead of random initialization, and adopt region
masks to restrict the feature injection to only the text region to avoid
distortion of the background. We conducted extensive experiments to verify the
effectiveness of our RepText relative to existing works, our approach
outperforms existing open-source methods and achieves comparable results to
native multi-language closed-source models. To be more fair, we also
exhaustively discuss its limitations in the end.Summary
AI-Generated Summary