RepText: Rendere il testo visibile attraverso la replicazioneRepText: Rendering Visual Text via Replicating
Sebbene i modelli contemporanei di generazione di immagini da testo abbiano raggiunto progressi significativi nella produzione di immagini visivamente accattivanti, la loro capacità di generare elementi tipografici precisi e flessibili, specialmente per alfabeti non latini, rimane limitata. Per affrontare queste limitazioni, partiamo da un'assunzione ingenua: la comprensione del testo è una condizione sufficiente per il rendering del testo, ma non necessaria. Basandoci su questo, presentiamo RepText, che mira a dotare i modelli pre-addestrati di generazione di immagini da testo monolingue della capacità di rendere accuratamente, o più precisamente, replicare, testo visivo multilingue in font specificati dall'utente, senza la necessità di comprenderlo realmente. Nello specifico, adottiamo l'impostazione di ControlNet e integriamo ulteriormente glifi e posizioni del testo renderizzato indipendenti dalla lingua, consentendo la generazione di testo visivo armonizzato e permettendo agli utenti di personalizzare contenuto, font e posizione del testo in base alle loro esigenze. Per migliorare l'accuratezza, viene utilizzata una perdita percettiva del testo insieme alla perdita di diffusione. Inoltre, per stabilizzare il processo di rendering, durante la fase di inferenza, inizializziamo direttamente con un latente rumoroso del glifo invece di un'inizializzazione casuale, e adottiamo maschere di regione per limitare l'iniezione delle caratteristiche solo all'area del testo, evitando distorsioni dello sfondo. Abbiamo condotto esperimenti estesi per verificare l'efficacia del nostro RepText rispetto ai lavori esistenti; il nostro approccio supera i metodi open-source esistenti e raggiunge risultati comparabili ai modelli nativi multilingue closed-source. Per essere più equi, discutiamo esaustivamente anche le sue limitazioni alla fine.