ChatPaper.aiChatPaper

LeX-Art: Переосмысление генерации текста через масштабируемый синтез высококачественных данных

LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis

March 27, 2025
Авторы: Shitian Zhao, Qilong Wu, Xinyue Li, Bo Zhang, Ming Li, Qi Qin, Dongyang Liu, Kaipeng Zhang, Hongsheng Li, Yu Qiao, Peng Gao, Bin Fu, Zhen Li
cs.AI

Аннотация

Мы представляем LeX-Art — комплексный набор инструментов для высококачественного синтеза текста и изображений, который систематически устраняет разрыв между выразительностью запросов и точностью визуализации текста. Наш подход следует парадигме, ориентированной на данные, и включает создание высококачественного конвейера синтеза данных на основе Deepseek-R1 для формирования LeX-10K — набора из 10 000 изображений с высоким разрешением 1024×1024, обладающих эстетической утонченностью. Помимо создания набора данных, мы разработали LeX-Enhancer — мощную модель обогащения запросов, а также обучили две модели для генерации изображений по тексту: LeX-FLUX и LeX-Lumina, достигшие передовых показателей в визуализации текста. Для систематической оценки генерации визуального текста мы представляем LeX-Bench — эталонный тест, оценивающий точность, эстетику и соответствие, дополненный новым метрическим показателем Pairwise Normalized Edit Distance (PNED) для надежной оценки точности текста. Эксперименты демонстрируют значительные улучшения: LeX-Lumina достигает увеличения PNED на 79,81% на CreateBench, а LeX-FLUX превосходит базовые модели по точности цветопередачи (+3,18%), позиционирования (+4,45%) и шрифтов (+3,81%). Наши коды, модели, наборы данных и демонстрация доступны публично.
English
We introduce LeX-Art, a comprehensive suite for high-quality text-image synthesis that systematically bridges the gap between prompt expressiveness and text rendering fidelity. Our approach follows a data-centric paradigm, constructing a high-quality data synthesis pipeline based on Deepseek-R1 to curate LeX-10K, a dataset of 10K high-resolution, aesthetically refined 1024times1024 images. Beyond dataset construction, we develop LeX-Enhancer, a robust prompt enrichment model, and train two text-to-image models, LeX-FLUX and LeX-Lumina, achieving state-of-the-art text rendering performance. To systematically evaluate visual text generation, we introduce LeX-Bench, a benchmark that assesses fidelity, aesthetics, and alignment, complemented by Pairwise Normalized Edit Distance (PNED), a novel metric for robust text accuracy evaluation. Experiments demonstrate significant improvements, with LeX-Lumina achieving a 79.81% PNED gain on CreateBench, and LeX-FLUX outperforming baselines in color (+3.18%), positional (+4.45%), and font accuracy (+3.81%). Our codes, models, datasets, and demo are publicly available.

Summary

AI-Generated Summary

PDF262March 28, 2025