ChatPaper.aiChatPaper

RepText: Visuele tekst weergeven via replicatie

RepText: Rendering Visual Text via Replicating

April 28, 2025
Auteurs: Haofan Wang, Yujia Xu, Yimeng Li, Junchen Li, Chaowei Zhang, Jing Wang, Kejia Yang, Zhibo Chen
cs.AI

Samenvatting

Hoewel hedendaagse tekst-naar-beeldgeneratiemodellen opmerkelijke doorbraken hebben bereikt in het produceren van visueel aantrekkelijke afbeeldingen, blijft hun vermogen om precieze en flexibele typografische elementen te genereren, met name niet-Latijnse alfabetten, beperkt. Om deze beperkingen aan te pakken, gaan we uit van een naïeve aanname dat tekstbegrip slechts een voldoende voorwaarde is voor tekstweergave, maar geen noodzakelijke voorwaarde. Op basis hiervan presenteren we RepText, dat als doel heeft om vooraf getrainde eentalige tekst-naar-beeldgeneratiemodellen in staat te stellen om meertalige visuele tekst nauwkeurig weer te geven, of meer precies, te repliceren, in door de gebruiker gespecificeerde lettertypen, zonder dat het nodig is om deze tekst echt te begrijpen. Specifiek nemen we de instelling van ControlNet over en integreren we daarnaast taalagnostische glyphs en de positie van weergegeven tekst om het genereren van harmonieuze visuele tekst mogelijk te maken, waardoor gebruikers tekstinhoud, lettertype en positie kunnen aanpassen naar hun behoeften. Om de nauwkeurigheid te verbeteren, wordt een tekstperceptieverlies gebruikt naast het diffusieverlies. Verder, om het weergaveproces te stabiliseren, initialiseren we tijdens de inferentiefase direct met een ruizige glyph latent in plaats van willekeurige initialisatie, en gebruiken we regiomaskers om de feature-injectie te beperken tot alleen het tekstgebied om vervorming van de achtergrond te voorkomen. We hebben uitgebreide experimenten uitgevoerd om de effectiviteit van onze RepText te verifiëren ten opzichte van bestaande werken, waarbij onze aanpak de bestaande open-source methoden overtreft en vergelijkbare resultaten behaalt als native meertalige closed-source modellen. Om eerlijker te zijn, bespreken we aan het einde ook uitgebreid de beperkingen ervan.
English
Although contemporary text-to-image generation models have achieved remarkable breakthroughs in producing visually appealing images, their capacity to generate precise and flexible typographic elements, especially non-Latin alphabets, remains constrained. To address these limitations, we start from an naive assumption that text understanding is only a sufficient condition for text rendering, but not a necessary condition. Based on this, we present RepText, which aims to empower pre-trained monolingual text-to-image generation models with the ability to accurately render, or more precisely, replicate, multilingual visual text in user-specified fonts, without the need to really understand them. Specifically, we adopt the setting from ControlNet and additionally integrate language agnostic glyph and position of rendered text to enable generating harmonized visual text, allowing users to customize text content, font and position on their needs. To improve accuracy, a text perceptual loss is employed along with the diffusion loss. Furthermore, to stabilize rendering process, at the inference phase, we directly initialize with noisy glyph latent instead of random initialization, and adopt region masks to restrict the feature injection to only the text region to avoid distortion of the background. We conducted extensive experiments to verify the effectiveness of our RepText relative to existing works, our approach outperforms existing open-source methods and achieves comparable results to native multi-language closed-source models. To be more fair, we also exhaustively discuss its limitations in the end.

Summary

AI-Generated Summary

PDF273April 29, 2025