LeX-Art: Een nieuwe benadering van tekstgeneratie via schaalbare synthese van hoogwaardige data

Samenvatting

We introduceren LeX-Art, een uitgebreide suite voor hoogwaardige tekst-naar-beeld synthese die systematisch de kloof overbrugt tussen prompt-expressiviteit en tekstweergavegetrouwheid. Onze aanpak volgt een data-centrisch paradigma, waarbij een hoogwaardige data-synthesepijplijn wordt geconstrueerd op basis van Deepseek-R1 om LeX-10K te cureren, een dataset van 10K hoogwaardige, esthetisch verfijnde 1024x1024 afbeeldingen. Naast de datasetconstructie ontwikkelen we LeX-Enhancer, een robuust promptverrijkingsmodel, en trainen we twee tekst-naar-beeldmodellen, LeX-FLUX en LeX-Lumina, die state-of-the-art tekstweergaveprestaties behalen. Om visuele tekstgeneratie systematisch te evalueren, introduceren we LeX-Bench, een benchmark die getrouwheid, esthetiek en uitlijning beoordeelt, aangevuld met Pairwise Normalized Edit Distance (PNED), een nieuwe metriek voor robuuste tekstnauwkeurigheidsevaluatie. Experimenten tonen significante verbeteringen, waarbij LeX-Lumina een PNED-winst van 79,81% behaalt op CreateBench, en LeX-FLUX de baseline overtreft in kleur (+3,18%), positie (+4,45%) en lettertypenauwkeurigheid (+3,81%). Onze codes, modellen, datasets en demo zijn publiekelijk beschikbaar.

English

We introduce LeX-Art, a comprehensive suite for high-quality text-image synthesis that systematically bridges the gap between prompt expressiveness and text rendering fidelity. Our approach follows a data-centric paradigm, constructing a high-quality data synthesis pipeline based on Deepseek-R1 to curate LeX-10K, a dataset of 10K high-resolution, aesthetically refined 1024times1024 images. Beyond dataset construction, we develop LeX-Enhancer, a robust prompt enrichment model, and train two text-to-image models, LeX-FLUX and LeX-Lumina, achieving state-of-the-art text rendering performance. To systematically evaluate visual text generation, we introduce LeX-Bench, a benchmark that assesses fidelity, aesthetics, and alignment, complemented by Pairwise Normalized Edit Distance (PNED), a novel metric for robust text accuracy evaluation. Experiments demonstrate significant improvements, with LeX-Lumina achieving a 79.81% PNED gain on CreateBench, and LeX-FLUX outperforming baselines in color (+3.18%), positional (+4.45%), and font accuracy (+3.81%). Our codes, models, datasets, and demo are publicly available.

LeX-Art: Een nieuwe benadering van tekstgeneratie via schaalbare synthese van hoogwaardige data

LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis

Samenvatting

Support