ChatPaper.aiChatPaper

LeX-Art: Een nieuwe benadering van tekstgeneratie via schaalbare synthese van hoogwaardige data

LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis

March 27, 2025
Auteurs: Shitian Zhao, Qilong Wu, Xinyue Li, Bo Zhang, Ming Li, Qi Qin, Dongyang Liu, Kaipeng Zhang, Hongsheng Li, Yu Qiao, Peng Gao, Bin Fu, Zhen Li
cs.AI

Samenvatting

We introduceren LeX-Art, een uitgebreide suite voor hoogwaardige tekst-naar-beeld synthese die systematisch de kloof overbrugt tussen prompt-expressiviteit en tekstweergavegetrouwheid. Onze aanpak volgt een data-centrisch paradigma, waarbij een hoogwaardige data-synthesepijplijn wordt geconstrueerd op basis van Deepseek-R1 om LeX-10K te cureren, een dataset van 10K hoogwaardige, esthetisch verfijnde 1024x1024 afbeeldingen. Naast de datasetconstructie ontwikkelen we LeX-Enhancer, een robuust promptverrijkingsmodel, en trainen we twee tekst-naar-beeldmodellen, LeX-FLUX en LeX-Lumina, die state-of-the-art tekstweergaveprestaties behalen. Om visuele tekstgeneratie systematisch te evalueren, introduceren we LeX-Bench, een benchmark die getrouwheid, esthetiek en uitlijning beoordeelt, aangevuld met Pairwise Normalized Edit Distance (PNED), een nieuwe metriek voor robuuste tekstnauwkeurigheidsevaluatie. Experimenten tonen significante verbeteringen, waarbij LeX-Lumina een PNED-winst van 79,81% behaalt op CreateBench, en LeX-FLUX de baseline overtreft in kleur (+3,18%), positie (+4,45%) en lettertypenauwkeurigheid (+3,81%). Onze codes, modellen, datasets en demo zijn publiekelijk beschikbaar.
English
We introduce LeX-Art, a comprehensive suite for high-quality text-image synthesis that systematically bridges the gap between prompt expressiveness and text rendering fidelity. Our approach follows a data-centric paradigm, constructing a high-quality data synthesis pipeline based on Deepseek-R1 to curate LeX-10K, a dataset of 10K high-resolution, aesthetically refined 1024times1024 images. Beyond dataset construction, we develop LeX-Enhancer, a robust prompt enrichment model, and train two text-to-image models, LeX-FLUX and LeX-Lumina, achieving state-of-the-art text rendering performance. To systematically evaluate visual text generation, we introduce LeX-Bench, a benchmark that assesses fidelity, aesthetics, and alignment, complemented by Pairwise Normalized Edit Distance (PNED), a novel metric for robust text accuracy evaluation. Experiments demonstrate significant improvements, with LeX-Lumina achieving a 79.81% PNED gain on CreateBench, and LeX-FLUX outperforming baselines in color (+3.18%), positional (+4.45%), and font accuracy (+3.81%). Our codes, models, datasets, and demo are publicly available.

Summary

AI-Generated Summary

PDF262March 28, 2025