Fine-T2I: Een open, grootschalige en diverse dataset voor hoogwaardige T2I-finetuning

Samenvatting

Hoogwaardige en open datasets blijven een grote knel voor tekst-naar-beeld (T2I) fine-tuning. Ondanks snelle vooruitgang in modelarchitecturen en trainingspijplijnen lijden de meeste openbaar beschikbare fine-tuning datasets aan een lage resolutie, slechte tekst-beeldafstemming of beperkte diversiteit, wat resulteert in een duidelijke prestatiekloof tussen open onderzoeksmodellen en modellen van bedrijfsniveau. In dit werk presenteren we Fine-T2I, een grootschalige, hoogwaardige en volledig open dataset voor T2I fine-tuning. Fine-T2I omvat 10 taakcombinaties, 32 promptcategorieën, 11 visuele stijlen en 5 promptsjablonen, en combineert synthetische afbeeldingen gegenereerd door sterke moderne modellen met zorgvuldig geselecteerde echte afbeeldingen van professionele fotografen. Alle steekproeven zijn rigoureus gefilterd op tekst-beeldafstemming, visuele kwaliteit en promptkwaliteit, waarbij meer dan 95% van de initiële kandidaten werd verwijderd. De uiteindelijke dataset bevat meer dan 6 miljoen tekst-beeldparen, ongeveer 2 TB op schijf, en benadert de schaal van pretrainingsdatasets terwijl de kwaliteit op fine-tuningniveau behouden blijft. Over een diverse reeks voorgetrainde diffusie- en autoregressieve modellen verbetert fine-tuning op Fine-T2I consistent zowel de generatiekwaliteit als de instructienaleving, zoals gevalideerd door humanevaluatie, visuele vergelijking en automatische metrieken. We geven Fine-T2I vrij onder een open licentie om te helpen de datakloof in T2I fine-tuning binnen de open gemeenschap te dichten.

English

High-quality and open datasets remain a major bottleneck for text-to-image (T2I) fine-tuning. Despite rapid progress in model architectures and training pipelines, most publicly available fine-tuning datasets suffer from low resolution, poor text-image alignment, or limited diversity, resulting in a clear performance gap between open research models and enterprise-grade models. In this work, we present Fine-T2I, a large-scale, high-quality, and fully open dataset for T2I fine-tuning. Fine-T2I spans 10 task combinations, 32 prompt categories, 11 visual styles, and 5 prompt templates, and combines synthetic images generated by strong modern models with carefully curated real images from professional photographers. All samples are rigorously filtered for text-image alignment, visual fidelity, and prompt quality, with over 95% of initial candidates removed. The final dataset contains over 6 million text-image pairs, around 2 TB on disk, approaching the scale of pretraining datasets while maintaining fine-tuning-level quality. Across a diverse set of pretrained diffusion and autoregressive models, fine-tuning on Fine-T2I consistently improves both generation quality and instruction adherence, as validated by human evaluation, visual comparison, and automatic metrics. We release Fine-T2I under an open license to help close the data gap in T2I fine-tuning in the open community.

Fine-T2I: Een open, grootschalige en diverse dataset voor hoogwaardige T2I-finetuning

Fine-T2I: An Open, Large-Scale, and Diverse Dataset for High-Quality T2I Fine-Tuning

Samenvatting

Support