ChatPaper.aiChatPaper

EasyText: Transformador de Difusão Controlável para Renderização de Texto Multilíngue

EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering

May 30, 2025
Autores: Runnan Lu, Yuxuan Zhang, Jailing Liu, Haifa Wang, Yiren Song
cs.AI

Resumo

A geração de textos multilingues precisos com modelos de difusão tem sido um objetivo há muito tempo, mas continua sendo um desafio. Métodos recentes têm avançado na renderização de textos em um único idioma, mas a renderização de idiomas arbitrários ainda é uma área inexplorada. Este artigo apresenta o EasyText, um framework de renderização de texto baseado no DiT (Diffusion Transformer), que conecta latentes de remoção de ruído com tokens de caracteres multilingues codificados como tokens de caracteres. Propomos técnicas de codificação de posicionamento de caracteres e interpolação de codificação de posição para alcançar uma renderização de texto controlável e precisa. Além disso, construímos um grande conjunto de dados sintéticos de imagens de texto com 1 milhão de anotações de texto-imagem multilingues, bem como um conjunto de dados de alta qualidade com 20 mil imagens anotadas, que são usados para pré-treinamento e ajuste fino, respectivamente. Experimentos e avaliações extensivos demonstram a eficácia e o avanço da nossa abordagem na renderização de textos multilingues, qualidade visual e integração de texto com consciência de layout.
English
Generating accurate multilingual text with diffusion models has long been desired but remains challenging. Recent methods have made progress in rendering text in a single language, but rendering arbitrary languages is still an unexplored area. This paper introduces EasyText, a text rendering framework based on DiT (Diffusion Transformer), which connects denoising latents with multilingual character tokens encoded as character tokens. We propose character positioning encoding and position encoding interpolation techniques to achieve controllable and precise text rendering. Additionally, we construct a large-scale synthetic text image dataset with 1 million multilingual image-text annotations as well as a high-quality dataset of 20K annotated images, which are used for pretraining and fine-tuning respectively. Extensive experiments and evaluations demonstrate the effectiveness and advancement of our approach in multilingual text rendering, visual quality, and layout-aware text integration.
PDF132June 2, 2025