ChatPaper.aiChatPaper

EasyText: Steuerbarer Diffusions-Transformer für mehrsprachiges Text-Rendering

EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering

May 30, 2025
Autoren: Runnan Lu, Yuxuan Zhang, Jailing Liu, Haifa Wang, Yiren Song
cs.AI

Zusammenfassung

Die Erzeugung präziser mehrsprachiger Texte mit Diffusionsmodellen ist seit langem ein gewünschtes Ziel, bleibt jedoch eine Herausforderung. Aktuelle Methoden haben Fortschritte bei der Darstellung von Texten in einer einzelnen Sprache erzielt, aber die Darstellung beliebiger Sprachen ist nach wie vor ein unerforschtes Gebiet. Dieses Papier stellt EasyText vor, ein Textdarstellungsframework basierend auf DiT (Diffusion Transformer), das Rauschreduktionslatenten mit mehrsprachigen Zeichentoken verbindet, die als Zeichentoken kodiert sind. Wir schlagen Zeichenpositionierungskodierung und Positionskodierungsinterpolationstechniken vor, um kontrollierbare und präzise Textdarstellung zu erreichen. Zusätzlich erstellen wir einen umfangreichen synthetischen Textbilddatensatz mit 1 Million mehrsprachiger Bild-Text-Annotationen sowie einen hochwertigen Datensatz von 20.000 annotierten Bildern, die für Vorabtraining und Feinabstimmung verwendet werden. Umfangreiche Experimente und Bewertungen demonstrieren die Wirksamkeit und den Fortschritt unseres Ansatzes in der mehrsprachigen Textdarstellung, der visuellen Qualität und der layoutbewussten Textintegration.
English
Generating accurate multilingual text with diffusion models has long been desired but remains challenging. Recent methods have made progress in rendering text in a single language, but rendering arbitrary languages is still an unexplored area. This paper introduces EasyText, a text rendering framework based on DiT (Diffusion Transformer), which connects denoising latents with multilingual character tokens encoded as character tokens. We propose character positioning encoding and position encoding interpolation techniques to achieve controllable and precise text rendering. Additionally, we construct a large-scale synthetic text image dataset with 1 million multilingual image-text annotations as well as a high-quality dataset of 20K annotated images, which are used for pretraining and fine-tuning respectively. Extensive experiments and evaluations demonstrate the effectiveness and advancement of our approach in multilingual text rendering, visual quality, and layout-aware text integration.

Summary

AI-Generated Summary

PDF122June 2, 2025