ChatPaper.aiChatPaper

EasyText : Transformateur de diffusion contrôlable pour le rendu de texte multilingue

EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering

May 30, 2025
Auteurs: Runnan Lu, Yuxuan Zhang, Jailing Liu, Haifa Wang, Yiren Song
cs.AI

Résumé

La génération de textes multilingues précis à l'aide de modèles de diffusion est un objectif de longue date, mais qui reste difficile à atteindre. Les méthodes récentes ont fait des progrès dans le rendu de texte dans une seule langue, mais le rendu de langues arbitraires demeure un domaine inexploré. Cet article présente EasyText, un cadre de rendu de texte basé sur DiT (Diffusion Transformer), qui relie les latents de débruitage à des tokens de caractères multilingues encodés en tant que tokens de caractères. Nous proposons des techniques d'encodage de positionnement des caractères et d'interpolation d'encodage de position pour réaliser un rendu de texte contrôlé et précis. De plus, nous construisons un vaste ensemble de données synthétiques d'images textuelles comprenant 1 million d'annotations image-texte multilingues ainsi qu'un ensemble de données de haute qualité de 20 000 images annotées, utilisés respectivement pour le pré-entraînement et le réglage fin. Des expériences et évaluations approfondies démontrent l'efficacité et l'avancée de notre approche en matière de rendu de texte multilingue, de qualité visuelle et d'intégration de texte sensible à la mise en page.
English
Generating accurate multilingual text with diffusion models has long been desired but remains challenging. Recent methods have made progress in rendering text in a single language, but rendering arbitrary languages is still an unexplored area. This paper introduces EasyText, a text rendering framework based on DiT (Diffusion Transformer), which connects denoising latents with multilingual character tokens encoded as character tokens. We propose character positioning encoding and position encoding interpolation techniques to achieve controllable and precise text rendering. Additionally, we construct a large-scale synthetic text image dataset with 1 million multilingual image-text annotations as well as a high-quality dataset of 20K annotated images, which are used for pretraining and fine-tuning respectively. Extensive experiments and evaluations demonstrate the effectiveness and advancement of our approach in multilingual text rendering, visual quality, and layout-aware text integration.

Summary

AI-Generated Summary

PDF122June 2, 2025