ChatPaper.aiChatPaper

EasyText: Trasformatore a Diffusione Controllabile per il Rendering Multilingue di Testo

EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering

May 30, 2025
Autori: Runnan Lu, Yuxuan Zhang, Jailing Liu, Haifa Wang, Yiren Song
cs.AI

Abstract

Generare testi multilingue accurati con modelli di diffusione è da tempo un obiettivo desiderato ma che rimane impegnativo. I metodi recenti hanno fatto progressi nel rendering di testi in una singola lingua, ma il rendering di lingue arbitrarie è ancora un'area inesplorata. Questo articolo introduce EasyText, un framework di rendering testuale basato su DiT (Diffusion Transformer), che collega i latenti di denoising con token di caratteri multilingue codificati come token di caratteri. Proponiamo tecniche di codifica del posizionamento dei caratteri e interpolazione della codifica di posizione per ottenere un rendering testuale controllabile e preciso. Inoltre, costruiamo un ampio dataset sintetico di immagini testuali con 1 milione di annotazioni immagine-testo multilingue, nonché un dataset di alta qualità di 20.000 immagini annotate, utilizzati rispettivamente per il pre-training e il fine-tuning. Esperimenti e valutazioni estesi dimostrano l'efficacia e l'avanzamento del nostro approccio nel rendering di testi multilingue, nella qualità visiva e nell'integrazione di testi consapevole del layout.
English
Generating accurate multilingual text with diffusion models has long been desired but remains challenging. Recent methods have made progress in rendering text in a single language, but rendering arbitrary languages is still an unexplored area. This paper introduces EasyText, a text rendering framework based on DiT (Diffusion Transformer), which connects denoising latents with multilingual character tokens encoded as character tokens. We propose character positioning encoding and position encoding interpolation techniques to achieve controllable and precise text rendering. Additionally, we construct a large-scale synthetic text image dataset with 1 million multilingual image-text annotations as well as a high-quality dataset of 20K annotated images, which are used for pretraining and fine-tuning respectively. Extensive experiments and evaluations demonstrate the effectiveness and advancement of our approach in multilingual text rendering, visual quality, and layout-aware text integration.
PDF132June 2, 2025