EasyText: 多言語テキストレンダリングのための制御可能な拡散トランスフォーマー
EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering
May 30, 2025
著者: Runnan Lu, Yuxuan Zhang, Jailing Liu, Haifa Wang, Yiren Song
cs.AI
要旨
正確な多言語テキストを拡散モデルで生成することは長らく望まれてきたが、依然として課題が多い。最近の手法では単一言語でのテキストレンダリングに進展が見られるものの、任意の言語をレンダリングする領域は未開拓である。本論文では、DiT(Diffusion Transformer)に基づくテキストレンダリングフレームワーク「EasyText」を紹介する。これは、ノイズ除去潜在変数を文字トークンとしてエンコードされた多言語文字トークンと接続するものである。我々は、制御可能かつ精密なテキストレンダリングを実現するために、文字位置エンコーディングと位置エンコーディング補間技術を提案する。さらに、100万件の多言語画像-テキスト注釈を含む大規模な合成テキスト画像データセットと、2万件の高品質な注釈付き画像データセットを構築し、それぞれ事前学習と微調整に使用した。広範な実験と評価を通じて、我々の手法が多言語テキストレンダリング、視覚的品質、レイアウトを考慮したテキスト統合において有効かつ先進的であることを示す。
English
Generating accurate multilingual text with diffusion models has long been
desired but remains challenging. Recent methods have made progress in rendering
text in a single language, but rendering arbitrary languages is still an
unexplored area. This paper introduces EasyText, a text rendering framework
based on DiT (Diffusion Transformer), which connects denoising latents with
multilingual character tokens encoded as character tokens. We propose character
positioning encoding and position encoding interpolation techniques to achieve
controllable and precise text rendering. Additionally, we construct a
large-scale synthetic text image dataset with 1 million multilingual image-text
annotations as well as a high-quality dataset of 20K annotated images, which
are used for pretraining and fine-tuning respectively. Extensive experiments
and evaluations demonstrate the effectiveness and advancement of our approach
in multilingual text rendering, visual quality, and layout-aware text
integration.Summary
AI-Generated Summary