ChatPaper.aiChatPaper

EasyText: Beheersbare Diffusie Transformer voor Meertalige Tekstweergave

EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering

May 30, 2025
Auteurs: Runnan Lu, Yuxuan Zhang, Jailing Liu, Haifa Wang, Yiren Song
cs.AI

Samenvatting

Het genereren van nauwkeurige meertalige tekst met diffusiemodellen is al lang gewenst, maar blijft een uitdaging. Recente methoden hebben vooruitgang geboekt in het weergeven van tekst in één taal, maar het weergeven van willekeurige talen is nog steeds een onontgonnen gebied. Dit artikel introduceert EasyText, een tekstweergaveframework gebaseerd op DiT (Diffusion Transformer), dat denoisende latente ruimtes verbindt met meertalige karaktertokens die als karaktertokens zijn gecodeerd. We stellen karakterpositioneringscodering en positiecodering-interpolatietechnieken voor om controleerbare en precieze tekstweergave te bereiken. Daarnaast construeren we een grootschalige synthetische tekstbeelddataset met 1 miljoen meertalige beeld-tekstannotaties, evenals een hoogwaardige dataset van 20K geannoteerde afbeeldingen, die respectievelijk worden gebruikt voor vooraf trainen en finetunen. Uitgebreide experimenten en evaluaties tonen de effectiviteit en vooruitgang van onze aanpak aan op het gebied van meertalige tekstweergave, visuele kwaliteit en lay-outbewuste tekstintegratie.
English
Generating accurate multilingual text with diffusion models has long been desired but remains challenging. Recent methods have made progress in rendering text in a single language, but rendering arbitrary languages is still an unexplored area. This paper introduces EasyText, a text rendering framework based on DiT (Diffusion Transformer), which connects denoising latents with multilingual character tokens encoded as character tokens. We propose character positioning encoding and position encoding interpolation techniques to achieve controllable and precise text rendering. Additionally, we construct a large-scale synthetic text image dataset with 1 million multilingual image-text annotations as well as a high-quality dataset of 20K annotated images, which are used for pretraining and fine-tuning respectively. Extensive experiments and evaluations demonstrate the effectiveness and advancement of our approach in multilingual text rendering, visual quality, and layout-aware text integration.
PDF132June 2, 2025