ChatPaper.aiChatPaper

LeX-Art: Repensando a Geração de Texto por meio da Síntese Escalável de Dados de Alta Qualidade

LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis

March 27, 2025
Autores: Shitian Zhao, Qilong Wu, Xinyue Li, Bo Zhang, Ming Li, Qi Qin, Dongyang Liu, Kaipeng Zhang, Hongsheng Li, Yu Qiao, Peng Gao, Bin Fu, Zhen Li
cs.AI

Resumo

Apresentamos o LeX-Art, um conjunto abrangente para síntese de texto-imagem de alta qualidade que preenche sistematicamente a lacuna entre a expressividade do prompt e a fidelidade na renderização de texto. Nossa abordagem segue um paradigma centrado em dados, construindo um pipeline de síntese de dados de alta qualidade baseado no Deepseek-R1 para criar o LeX-10K, um conjunto de 10 mil imagens de alta resolução e esteticamente refinadas com dimensões de 1024x1024. Além da construção do conjunto de dados, desenvolvemos o LeX-Enhancer, um modelo robusto de enriquecimento de prompts, e treinamos dois modelos de texto para imagem, o LeX-FLUX e o LeX-Lumina, alcançando desempenho de ponta na renderização de texto. Para avaliar sistematicamente a geração de texto visual, introduzimos o LeX-Bench, um benchmark que avalia fidelidade, estética e alinhamento, complementado pela Distância de Edição Normalizada Pareada (PNED), uma nova métrica para avaliação robusta da precisão do texto. Experimentos demonstram melhorias significativas, com o LeX-Lumina alcançando um ganho de 79,81% no PNED no CreateBench, e o LeX-FLUX superando as baselines em precisão de cor (+3,18%), posicional (+4,45%) e de fonte (+3,81%). Nossos códigos, modelos, conjuntos de dados e demonstração estão publicamente disponíveis.
English
We introduce LeX-Art, a comprehensive suite for high-quality text-image synthesis that systematically bridges the gap between prompt expressiveness and text rendering fidelity. Our approach follows a data-centric paradigm, constructing a high-quality data synthesis pipeline based on Deepseek-R1 to curate LeX-10K, a dataset of 10K high-resolution, aesthetically refined 1024times1024 images. Beyond dataset construction, we develop LeX-Enhancer, a robust prompt enrichment model, and train two text-to-image models, LeX-FLUX and LeX-Lumina, achieving state-of-the-art text rendering performance. To systematically evaluate visual text generation, we introduce LeX-Bench, a benchmark that assesses fidelity, aesthetics, and alignment, complemented by Pairwise Normalized Edit Distance (PNED), a novel metric for robust text accuracy evaluation. Experiments demonstrate significant improvements, with LeX-Lumina achieving a 79.81% PNED gain on CreateBench, and LeX-FLUX outperforming baselines in color (+3.18%), positional (+4.45%), and font accuracy (+3.81%). Our codes, models, datasets, and demo are publicly available.

Summary

AI-Generated Summary

PDF262March 28, 2025