ChatPaper.aiChatPaper

RepText: Rendere il testo visibile attraverso la replicazione

RepText: Rendering Visual Text via Replicating

April 28, 2025
Autori: Haofan Wang, Yujia Xu, Yimeng Li, Junchen Li, Chaowei Zhang, Jing Wang, Kejia Yang, Zhibo Chen
cs.AI

Abstract

Sebbene i modelli contemporanei di generazione di immagini da testo abbiano raggiunto progressi significativi nella produzione di immagini visivamente accattivanti, la loro capacità di generare elementi tipografici precisi e flessibili, specialmente per alfabeti non latini, rimane limitata. Per affrontare queste limitazioni, partiamo da un'assunzione ingenua: la comprensione del testo è una condizione sufficiente per il rendering del testo, ma non necessaria. Basandoci su questo, presentiamo RepText, che mira a dotare i modelli pre-addestrati di generazione di immagini da testo monolingue della capacità di rendere accuratamente, o più precisamente, replicare, testo visivo multilingue in font specificati dall'utente, senza la necessità di comprenderlo realmente. Nello specifico, adottiamo l'impostazione di ControlNet e integriamo ulteriormente glifi e posizioni del testo renderizzato indipendenti dalla lingua, consentendo la generazione di testo visivo armonizzato e permettendo agli utenti di personalizzare contenuto, font e posizione del testo in base alle loro esigenze. Per migliorare l'accuratezza, viene utilizzata una perdita percettiva del testo insieme alla perdita di diffusione. Inoltre, per stabilizzare il processo di rendering, durante la fase di inferenza, inizializziamo direttamente con un latente rumoroso del glifo invece di un'inizializzazione casuale, e adottiamo maschere di regione per limitare l'iniezione delle caratteristiche solo all'area del testo, evitando distorsioni dello sfondo. Abbiamo condotto esperimenti estesi per verificare l'efficacia del nostro RepText rispetto ai lavori esistenti; il nostro approccio supera i metodi open-source esistenti e raggiunge risultati comparabili ai modelli nativi multilingue closed-source. Per essere più equi, discutiamo esaustivamente anche le sue limitazioni alla fine.
English
Although contemporary text-to-image generation models have achieved remarkable breakthroughs in producing visually appealing images, their capacity to generate precise and flexible typographic elements, especially non-Latin alphabets, remains constrained. To address these limitations, we start from an naive assumption that text understanding is only a sufficient condition for text rendering, but not a necessary condition. Based on this, we present RepText, which aims to empower pre-trained monolingual text-to-image generation models with the ability to accurately render, or more precisely, replicate, multilingual visual text in user-specified fonts, without the need to really understand them. Specifically, we adopt the setting from ControlNet and additionally integrate language agnostic glyph and position of rendered text to enable generating harmonized visual text, allowing users to customize text content, font and position on their needs. To improve accuracy, a text perceptual loss is employed along with the diffusion loss. Furthermore, to stabilize rendering process, at the inference phase, we directly initialize with noisy glyph latent instead of random initialization, and adopt region masks to restrict the feature injection to only the text region to avoid distortion of the background. We conducted extensive experiments to verify the effectiveness of our RepText relative to existing works, our approach outperforms existing open-source methods and achieves comparable results to native multi-language closed-source models. To be more fair, we also exhaustively discuss its limitations in the end.

Summary

AI-Generated Summary

PDF273April 29, 2025