Fine-T2I: un dataset aperto, su larga scala e diversificato per il fine-tuning di alta qualità da testo a immagine

Abstract

Dataset di alta qualità e aperti rimangono un collo di bottiglia significativo per il fine-tuning text-to-image (T2I). Nonostante i rapidi progressi nelle architetture dei modelli e nelle pipeline di addestramento, la maggior parte dei dataset di fine-tuning pubblicamente disponibili soffre di bassa risoluzione, scarso allineamento testo-immagine o diversità limitata, risultando in un evidente divario prestazionale tra i modelli di ricerca aperti e i modelli di livello enterprise. In questo lavoro, presentiamo Fine-T2I, un dataset su larga scala, di alta qualità e completamente aperto per il fine-tuning T2I. Fine-T2I copre 10 combinazioni di task, 32 categorie di prompt, 11 stili visivi e 5 template di prompt, e combina immagini sintetiche generate da potenti modelli moderni con immagini reali accuratamente selezionate da fotografi professionisti. Tutti i campioni sono stati rigorosamente filtrati per allineamento testo-immagine, fedeltà visiva e qualità del prompt, con oltre il 95% dei candidati iniziali rimossi. Il dataset finale contiene oltre 6 milioni di coppie testo-immagine, per circa 2 TB su disco, avvicinandosi alla scala dei dataset di pre-training mantenendo una qualità di livello adatto al fine-tuning. Su un insieme diversificato di modelli pre-addestrati basati su diffusion e autoregressivi, il fine-tuning su Fine-T2I migliora costantemente sia la qualità della generazione che l'aderenza alle istruzioni, come convalidato da valutazione umana, confronto visivo e metriche automatiche. Rilasciamo Fine-T2I con una licenza aperta per contribuire a colmare il divario dati nel fine-tuning T2I nella comunità open.

English

High-quality and open datasets remain a major bottleneck for text-to-image (T2I) fine-tuning. Despite rapid progress in model architectures and training pipelines, most publicly available fine-tuning datasets suffer from low resolution, poor text-image alignment, or limited diversity, resulting in a clear performance gap between open research models and enterprise-grade models. In this work, we present Fine-T2I, a large-scale, high-quality, and fully open dataset for T2I fine-tuning. Fine-T2I spans 10 task combinations, 32 prompt categories, 11 visual styles, and 5 prompt templates, and combines synthetic images generated by strong modern models with carefully curated real images from professional photographers. All samples are rigorously filtered for text-image alignment, visual fidelity, and prompt quality, with over 95% of initial candidates removed. The final dataset contains over 6 million text-image pairs, around 2 TB on disk, approaching the scale of pretraining datasets while maintaining fine-tuning-level quality. Across a diverse set of pretrained diffusion and autoregressive models, fine-tuning on Fine-T2I consistently improves both generation quality and instruction adherence, as validated by human evaluation, visual comparison, and automatic metrics. We release Fine-T2I under an open license to help close the data gap in T2I fine-tuning in the open community.

Fine-T2I: un dataset aperto, su larga scala e diversificato per il fine-tuning di alta qualità da testo a immagine

Fine-T2I: An Open, Large-Scale, and Diverse Dataset for High-Quality T2I Fine-Tuning

Abstract

Support