ChatPaper.aiChatPaper

EasyText: Transformador de Difusión Controlable para la Representación Multilingüe de Texto

EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering

May 30, 2025
Autores: Runnan Lu, Yuxuan Zhang, Jailing Liu, Haifa Wang, Yiren Song
cs.AI

Resumen

Generar texto multilingüe preciso con modelos de difusión ha sido un objetivo deseado durante mucho tiempo, pero sigue siendo un desafío. Los métodos recientes han logrado avances en la representación de texto en un solo idioma, pero la representación de idiomas arbitrarios sigue siendo un área inexplorada. Este artículo presenta EasyText, un marco de representación de texto basado en DiT (Diffusion Transformer), que conecta latentes de eliminación de ruido con tokens de caracteres multilingües codificados como tokens de caracteres. Proponemos técnicas de codificación de posicionamiento de caracteres e interpolación de codificación de posición para lograr una representación de texto controlable y precisa. Además, construimos un conjunto de datos sintéticos de imágenes de texto a gran escala con 1 millón de anotaciones de texto-imagen multilingüe, así como un conjunto de datos de alta calidad de 20,000 imágenes anotadas, que se utilizan para el preentrenamiento y el ajuste fino, respectivamente. Experimentos y evaluaciones exhaustivas demuestran la efectividad y el avance de nuestro enfoque en la representación de texto multilingüe, la calidad visual y la integración de texto consciente del diseño.
English
Generating accurate multilingual text with diffusion models has long been desired but remains challenging. Recent methods have made progress in rendering text in a single language, but rendering arbitrary languages is still an unexplored area. This paper introduces EasyText, a text rendering framework based on DiT (Diffusion Transformer), which connects denoising latents with multilingual character tokens encoded as character tokens. We propose character positioning encoding and position encoding interpolation techniques to achieve controllable and precise text rendering. Additionally, we construct a large-scale synthetic text image dataset with 1 million multilingual image-text annotations as well as a high-quality dataset of 20K annotated images, which are used for pretraining and fine-tuning respectively. Extensive experiments and evaluations demonstrate the effectiveness and advancement of our approach in multilingual text rendering, visual quality, and layout-aware text integration.

Summary

AI-Generated Summary

PDF122June 2, 2025