EasyText: Beheersbare Diffusie Transformer voor Meertalige Tekstweergave
EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering
May 30, 2025
Auteurs: Runnan Lu, Yuxuan Zhang, Jailing Liu, Haifa Wang, Yiren Song
cs.AI
Samenvatting
Het genereren van nauwkeurige meertalige tekst met diffusiemodellen is al lang gewenst, maar blijft een uitdaging. Recente methoden hebben vooruitgang geboekt in het weergeven van tekst in één taal, maar het weergeven van willekeurige talen is nog steeds een onontgonnen gebied. Dit artikel introduceert EasyText, een tekstweergaveframework gebaseerd op DiT (Diffusion Transformer), dat denoisende latente ruimtes verbindt met meertalige karaktertokens die als karaktertokens zijn gecodeerd. We stellen karakterpositioneringscodering en positiecodering-interpolatietechnieken voor om controleerbare en precieze tekstweergave te bereiken. Daarnaast construeren we een grootschalige synthetische tekstbeelddataset met 1 miljoen meertalige beeld-tekstannotaties, evenals een hoogwaardige dataset van 20K geannoteerde afbeeldingen, die respectievelijk worden gebruikt voor vooraf trainen en finetunen. Uitgebreide experimenten en evaluaties tonen de effectiviteit en vooruitgang van onze aanpak aan op het gebied van meertalige tekstweergave, visuele kwaliteit en lay-outbewuste tekstintegratie.
English
Generating accurate multilingual text with diffusion models has long been
desired but remains challenging. Recent methods have made progress in rendering
text in a single language, but rendering arbitrary languages is still an
unexplored area. This paper introduces EasyText, a text rendering framework
based on DiT (Diffusion Transformer), which connects denoising latents with
multilingual character tokens encoded as character tokens. We propose character
positioning encoding and position encoding interpolation techniques to achieve
controllable and precise text rendering. Additionally, we construct a
large-scale synthetic text image dataset with 1 million multilingual image-text
annotations as well as a high-quality dataset of 20K annotated images, which
are used for pretraining and fine-tuning respectively. Extensive experiments
and evaluations demonstrate the effectiveness and advancement of our approach
in multilingual text rendering, visual quality, and layout-aware text
integration.