Fine-T2I : Un jeu de données ouvert, à grande échelle et diversifié pour le réglage fin de haute qualité en génération d'image par texte
Fine-T2I: An Open, Large-Scale, and Diverse Dataset for High-Quality T2I Fine-Tuning
February 10, 2026
papers.authors: Xu Ma, Yitian Zhang, Qihua Dong, Yun Fu
cs.AI
papers.abstract
Les jeux de données de haute qualité et ouverts restent un goulot d'étranglement majeur pour le réglage fin (fine-tuning) texte-à-image (T2I). Malgré les progrès rapides des architectures de modèles et des pipelines d'entraînement, la plupart des ensembles de données de réglage fin publiquement disponibles souffrent d'une faible résolution, d'un mauvais alignement texte-image ou d'une diversité limitée, ce qui entraîne un écart de performance net entre les modèles de recherche ouverts et les modèles de niveau professionnel. Dans ce travail, nous présentons Fine-T2I, un jeu de données à grande échelle, de haute qualité et entièrement ouvert pour le réglage fin T2I. Fine-T2I couvre 10 combinaisons de tâches, 32 catégories d'invites (prompts), 11 styles visuels et 5 modèles d'invites, et combine des images synthétiques générées par des modèles modernes performants avec des images réelles soigneusement sélectionnées provenant de photographes professionnels. Tous les échantillons sont rigoureusement filtrés pour l'alignement texte-image, la fidélité visuelle et la qualité des invites, plus de 95 % des candidats initiaux étant éliminés. L'ensemble de données final contient plus de 6 millions de paires texte-image, représentant environ 2 To sur disque, approchant l'échelle des jeux de données de pré-entraînement tout en maintenant une qualité de niveau réglage fin. Sur un ensemble varié de modèles de diffusion et autorégressifs pré-entraînés, le réglage fin sur Fine-T2I améliore systématiquement à la fois la qualité de génération et le respect des instructions, comme le valident l'évaluation humaine, la comparaison visuelle et les métriques automatiques. Nous publions Fine-T2I sous une licence ouverte pour contribuer à combler le fossé des données dans le réglage fin T2I au sein de la communauté ouverte.
English
High-quality and open datasets remain a major bottleneck for text-to-image (T2I) fine-tuning. Despite rapid progress in model architectures and training pipelines, most publicly available fine-tuning datasets suffer from low resolution, poor text-image alignment, or limited diversity, resulting in a clear performance gap between open research models and enterprise-grade models. In this work, we present Fine-T2I, a large-scale, high-quality, and fully open dataset for T2I fine-tuning. Fine-T2I spans 10 task combinations, 32 prompt categories, 11 visual styles, and 5 prompt templates, and combines synthetic images generated by strong modern models with carefully curated real images from professional photographers. All samples are rigorously filtered for text-image alignment, visual fidelity, and prompt quality, with over 95% of initial candidates removed. The final dataset contains over 6 million text-image pairs, around 2 TB on disk, approaching the scale of pretraining datasets while maintaining fine-tuning-level quality. Across a diverse set of pretrained diffusion and autoregressive models, fine-tuning on Fine-T2I consistently improves both generation quality and instruction adherence, as validated by human evaluation, visual comparison, and automatic metrics. We release Fine-T2I under an open license to help close the data gap in T2I fine-tuning in the open community.