ChatPaper.aiChatPaper

LeX-Art: Replanteando la generación de texto mediante la síntesis escalable de datos de alta calidad

LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis

March 27, 2025
Autores: Shitian Zhao, Qilong Wu, Xinyue Li, Bo Zhang, Ming Li, Qi Qin, Dongyang Liu, Kaipeng Zhang, Hongsheng Li, Yu Qiao, Peng Gao, Bin Fu, Zhen Li
cs.AI

Resumen

Presentamos LeX-Art, un conjunto integral para la síntesis de texto-imagen de alta calidad que cierra sistemáticamente la brecha entre la expresividad de los prompts y la fidelidad en la representación del texto. Nuestro enfoque sigue un paradigma centrado en los datos, construyendo una canalización de síntesis de datos de alta calidad basada en Deepseek-R1 para curar LeX-10K, un conjunto de datos de 10K imágenes de alta resolución y estéticamente refinadas de 1024x1024 píxeles. Más allá de la construcción del conjunto de datos, desarrollamos LeX-Enhancer, un modelo robusto de enriquecimiento de prompts, y entrenamos dos modelos de texto a imagen, LeX-FLUX y LeX-Lumina, logrando un rendimiento de vanguardia en la representación de texto. Para evaluar sistemáticamente la generación de texto visual, introducimos LeX-Bench, un benchmark que evalúa la fidelidad, la estética y la alineación, complementado por la Distancia de Edición Normalizada por Pares (PNED), una métrica novedosa para la evaluación robusta de la precisión del texto. Los experimentos demuestran mejoras significativas, con LeX-Lumina logrando un aumento del 79.81% en PNED en CreateBench, y LeX-FLUX superando a los baselines en precisión de color (+3.18%), posición (+4.45%) y tipografía (+3.81%). Nuestros códigos, modelos, conjuntos de datos y demo están disponibles públicamente.
English
We introduce LeX-Art, a comprehensive suite for high-quality text-image synthesis that systematically bridges the gap between prompt expressiveness and text rendering fidelity. Our approach follows a data-centric paradigm, constructing a high-quality data synthesis pipeline based on Deepseek-R1 to curate LeX-10K, a dataset of 10K high-resolution, aesthetically refined 1024times1024 images. Beyond dataset construction, we develop LeX-Enhancer, a robust prompt enrichment model, and train two text-to-image models, LeX-FLUX and LeX-Lumina, achieving state-of-the-art text rendering performance. To systematically evaluate visual text generation, we introduce LeX-Bench, a benchmark that assesses fidelity, aesthetics, and alignment, complemented by Pairwise Normalized Edit Distance (PNED), a novel metric for robust text accuracy evaluation. Experiments demonstrate significant improvements, with LeX-Lumina achieving a 79.81% PNED gain on CreateBench, and LeX-FLUX outperforming baselines in color (+3.18%), positional (+4.45%), and font accuracy (+3.81%). Our codes, models, datasets, and demo are publicly available.

Summary

AI-Generated Summary

PDF262March 28, 2025