LeX-Art: 확장 가능한 고품질 데이터 합성을 통한 텍스트 생성 재고
LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis
March 27, 2025
저자: Shitian Zhao, Qilong Wu, Xinyue Li, Bo Zhang, Ming Li, Qi Qin, Dongyang Liu, Kaipeng Zhang, Hongsheng Li, Yu Qiao, Peng Gao, Bin Fu, Zhen Li
cs.AI
초록
우리는 LeX-Art를 소개합니다. 이는 프롬프트 표현력과 텍스트 렌더링 정확도 간의 격차를 체계적으로 해소하는 고품질 텍스트-이미지 합성 도구 모음입니다. 우리의 접근 방식은 데이터 중심 패러다임을 따르며, Deepseek-R1을 기반으로 한 고품질 데이터 합성 파이프라인을 구축하여 10K개의 고해상도(1024x1024) 및 미학적으로 정제된 이미지 데이터셋인 LeX-10K를 제작했습니다. 데이터셋 구축을 넘어, 우리는 강력한 프롬프트 강화 모델인 LeX-Enhancer를 개발하고, 두 가지 텍스트-이미지 모델인 LeX-FLUX와 LeX-Lumina를 학습시켜 최첨단 텍스트 렌더링 성능을 달성했습니다. 시각적 텍스트 생성을 체계적으로 평가하기 위해, 우리는 LeX-Bench를 도입했습니다. 이 벤치마크는 충실도, 미학, 정렬을 평가하며, 강력한 텍스트 정확도 평가를 위한 새로운 메트릭인 Pairwise Normalized Edit Distance(PNED)를 보완합니다. 실험 결과, LeX-Lumina는 CreateBench에서 79.81%의 PNED 향상을 달성했으며, LeX-FLUX는 색상(+3.18%), 위치(+4.45%), 폰트 정확도(+3.81%)에서 기준선을 능가하는 성과를 보였습니다. 우리의 코드, 모델, 데이터셋, 데모는 공개적으로 제공됩니다.
English
We introduce LeX-Art, a comprehensive suite for high-quality text-image
synthesis that systematically bridges the gap between prompt expressiveness and
text rendering fidelity. Our approach follows a data-centric paradigm,
constructing a high-quality data synthesis pipeline based on Deepseek-R1 to
curate LeX-10K, a dataset of 10K high-resolution, aesthetically refined
1024times1024 images. Beyond dataset construction, we develop LeX-Enhancer,
a robust prompt enrichment model, and train two text-to-image models, LeX-FLUX
and LeX-Lumina, achieving state-of-the-art text rendering performance. To
systematically evaluate visual text generation, we introduce LeX-Bench, a
benchmark that assesses fidelity, aesthetics, and alignment, complemented by
Pairwise Normalized Edit Distance (PNED), a novel metric for robust text
accuracy evaluation. Experiments demonstrate significant improvements, with
LeX-Lumina achieving a 79.81% PNED gain on CreateBench, and LeX-FLUX
outperforming baselines in color (+3.18%), positional (+4.45%), and font
accuracy (+3.81%). Our codes, models, datasets, and demo are publicly
available.Summary
AI-Generated Summary