ChatPaper.aiChatPaper

EasyText: Управляемый диффузионный трансформер для многоязычного рендеринга текста

EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering

May 30, 2025
Авторы: Runnan Lu, Yuxuan Zhang, Jailing Liu, Haifa Wang, Yiren Song
cs.AI

Аннотация

Создание точного многоязычного текста с использованием диффузионных моделей долгое время оставалось желаемой, но сложной задачей. Современные методы добились прогресса в генерации текста на одном языке, однако рендеринг произвольных языков по-прежнему остается малоизученной областью. В данной статье представлен EasyText — фреймворк для рендеринга текста, основанный на DiT (Diffusion Transformer), который связывает шумоподавляющие латентные переменные с многоязычными символами, закодированными как токены символов. Мы предлагаем методы позиционного кодирования символов и интерполяции позиционного кодирования для достижения контролируемого и точного рендеринга текста. Кроме того, мы создаем крупномасштабный синтетический набор данных текстовых изображений, содержащий 1 миллион аннотаций изображений и текста на различных языках, а также высококачественный набор данных из 20 тысяч аннотированных изображений, которые используются для предварительного обучения и тонкой настройки соответственно. Многочисленные эксперименты и оценки демонстрируют эффективность и прогрессивность нашего подхода в рендеринге многоязычного текста, визуальном качестве и интеграции текста с учетом макета.
English
Generating accurate multilingual text with diffusion models has long been desired but remains challenging. Recent methods have made progress in rendering text in a single language, but rendering arbitrary languages is still an unexplored area. This paper introduces EasyText, a text rendering framework based on DiT (Diffusion Transformer), which connects denoising latents with multilingual character tokens encoded as character tokens. We propose character positioning encoding and position encoding interpolation techniques to achieve controllable and precise text rendering. Additionally, we construct a large-scale synthetic text image dataset with 1 million multilingual image-text annotations as well as a high-quality dataset of 20K annotated images, which are used for pretraining and fine-tuning respectively. Extensive experiments and evaluations demonstrate the effectiveness and advancement of our approach in multilingual text rendering, visual quality, and layout-aware text integration.

Summary

AI-Generated Summary

PDF122June 2, 2025