LeX-Art : Repenser la génération de texte via une synthèse de données haute qualité et évolutive
LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis
March 27, 2025
Auteurs: Shitian Zhao, Qilong Wu, Xinyue Li, Bo Zhang, Ming Li, Qi Qin, Dongyang Liu, Kaipeng Zhang, Hongsheng Li, Yu Qiao, Peng Gao, Bin Fu, Zhen Li
cs.AI
Résumé
Nous présentons LeX-Art, une suite complète pour la synthèse texte-image de haute qualité qui comble systématiquement l'écart entre l'expressivité des prompts et la fidélité du rendu textuel. Notre approche suit un paradigme centré sur les données, en construisant un pipeline de synthèse de données de haute qualité basé sur Deepseek-R1 pour constituer LeX-10K, un ensemble de 10 000 images haute résolution (1024×1024) esthétiquement raffinées. Au-delà de la construction du jeu de données, nous développons LeX-Enhancer, un modèle robuste d'enrichissement de prompts, et entraînons deux modèles de génération texte-image, LeX-FLUX et LeX-Lumina, atteignant des performances de pointe en matière de rendu textuel. Pour évaluer systématiquement la génération de texte visuel, nous introduisons LeX-Bench, un benchmark qui évalue la fidélité, l'esthétique et l'alignement, complété par la Distance d'Édition Normalisée par Paire (PNED), une nouvelle métrique pour une évaluation robuste de la précision textuelle. Les expériences démontrent des améliorations significatives, avec LeX-Lumina obtenant un gain de 79,81 % en PNED sur CreateBench, et LeX-FLUX surpassant les modèles de référence en précision des couleurs (+3,18 %), de positionnement (+4,45 %) et de police (+3,81 %). Nos codes, modèles, jeux de données et démonstration sont disponibles publiquement.
English
We introduce LeX-Art, a comprehensive suite for high-quality text-image
synthesis that systematically bridges the gap between prompt expressiveness and
text rendering fidelity. Our approach follows a data-centric paradigm,
constructing a high-quality data synthesis pipeline based on Deepseek-R1 to
curate LeX-10K, a dataset of 10K high-resolution, aesthetically refined
1024times1024 images. Beyond dataset construction, we develop LeX-Enhancer,
a robust prompt enrichment model, and train two text-to-image models, LeX-FLUX
and LeX-Lumina, achieving state-of-the-art text rendering performance. To
systematically evaluate visual text generation, we introduce LeX-Bench, a
benchmark that assesses fidelity, aesthetics, and alignment, complemented by
Pairwise Normalized Edit Distance (PNED), a novel metric for robust text
accuracy evaluation. Experiments demonstrate significant improvements, with
LeX-Lumina achieving a 79.81% PNED gain on CreateBench, and LeX-FLUX
outperforming baselines in color (+3.18%), positional (+4.45%), and font
accuracy (+3.81%). Our codes, models, datasets, and demo are publicly
available.Summary
AI-Generated Summary