EasyText: Trasformatore a Diffusione Controllabile per il Rendering Multilingue di Testo
EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering
May 30, 2025
Autori: Runnan Lu, Yuxuan Zhang, Jailing Liu, Haifa Wang, Yiren Song
cs.AI
Abstract
Generare testi multilingue accurati con modelli di diffusione è da tempo un obiettivo desiderato ma che rimane impegnativo. I metodi recenti hanno fatto progressi nel rendering di testi in una singola lingua, ma il rendering di lingue arbitrarie è ancora un'area inesplorata. Questo articolo introduce EasyText, un framework di rendering testuale basato su DiT (Diffusion Transformer), che collega i latenti di denoising con token di caratteri multilingue codificati come token di caratteri. Proponiamo tecniche di codifica del posizionamento dei caratteri e interpolazione della codifica di posizione per ottenere un rendering testuale controllabile e preciso. Inoltre, costruiamo un ampio dataset sintetico di immagini testuali con 1 milione di annotazioni immagine-testo multilingue, nonché un dataset di alta qualità di 20.000 immagini annotate, utilizzati rispettivamente per il pre-training e il fine-tuning. Esperimenti e valutazioni estesi dimostrano l'efficacia e l'avanzamento del nostro approccio nel rendering di testi multilingue, nella qualità visiva e nell'integrazione di testi consapevole del layout.
English
Generating accurate multilingual text with diffusion models has long been
desired but remains challenging. Recent methods have made progress in rendering
text in a single language, but rendering arbitrary languages is still an
unexplored area. This paper introduces EasyText, a text rendering framework
based on DiT (Diffusion Transformer), which connects denoising latents with
multilingual character tokens encoded as character tokens. We propose character
positioning encoding and position encoding interpolation techniques to achieve
controllable and precise text rendering. Additionally, we construct a
large-scale synthetic text image dataset with 1 million multilingual image-text
annotations as well as a high-quality dataset of 20K annotated images, which
are used for pretraining and fine-tuning respectively. Extensive experiments
and evaluations demonstrate the effectiveness and advancement of our approach
in multilingual text rendering, visual quality, and layout-aware text
integration.