EasyText: Управляемый диффузионный трансформер для многоязычного рендеринга текста
EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering
May 30, 2025
Авторы: Runnan Lu, Yuxuan Zhang, Jailing Liu, Haifa Wang, Yiren Song
cs.AI
Аннотация
Создание точного многоязычного текста с использованием диффузионных моделей долгое время оставалось желаемой, но сложной задачей. Современные методы добились прогресса в генерации текста на одном языке, однако рендеринг произвольных языков по-прежнему остается малоизученной областью. В данной статье представлен EasyText — фреймворк для рендеринга текста, основанный на DiT (Diffusion Transformer), который связывает шумоподавляющие латентные переменные с многоязычными символами, закодированными как токены символов. Мы предлагаем методы позиционного кодирования символов и интерполяции позиционного кодирования для достижения контролируемого и точного рендеринга текста. Кроме того, мы создаем крупномасштабный синтетический набор данных текстовых изображений, содержащий 1 миллион аннотаций изображений и текста на различных языках, а также высококачественный набор данных из 20 тысяч аннотированных изображений, которые используются для предварительного обучения и тонкой настройки соответственно. Многочисленные эксперименты и оценки демонстрируют эффективность и прогрессивность нашего подхода в рендеринге многоязычного текста, визуальном качестве и интеграции текста с учетом макета.
English
Generating accurate multilingual text with diffusion models has long been
desired but remains challenging. Recent methods have made progress in rendering
text in a single language, but rendering arbitrary languages is still an
unexplored area. This paper introduces EasyText, a text rendering framework
based on DiT (Diffusion Transformer), which connects denoising latents with
multilingual character tokens encoded as character tokens. We propose character
positioning encoding and position encoding interpolation techniques to achieve
controllable and precise text rendering. Additionally, we construct a
large-scale synthetic text image dataset with 1 million multilingual image-text
annotations as well as a high-quality dataset of 20K annotated images, which
are used for pretraining and fine-tuning respectively. Extensive experiments
and evaluations demonstrate the effectiveness and advancement of our approach
in multilingual text rendering, visual quality, and layout-aware text
integration.Summary
AI-Generated Summary