Fine-T2I: Ein offener, umfangreicher und vielfältiger Datensatz für hochwertiges T2I-Fine-Tuning
Fine-T2I: An Open, Large-Scale, and Diverse Dataset for High-Quality T2I Fine-Tuning
February 10, 2026
papers.authors: Xu Ma, Yitian Zhang, Qihua Dong, Yun Fu
cs.AI
papers.abstract
Hochwertige und offene Datensätze bleiben ein wesentlicher Engpass für das Fine-Tuning von Text-zu-Bild (T2I) Modellen. Trotz rasanter Fortschritte bei Modellarchitekturen und Trainingspipelines leiden die meisten öffentlich verfügbaren Fine-Tuning-Datensätze unter niedriger Auflösung, schlechter Text-Bild-Ausrichtung oder begrenzter Vielfalt, was zu einer deutlichen Leistungslücke zwischen offenen Forschungsmodellen und Unternehmensmodellen führt. In dieser Arbeit stellen wir Fine-T2I vor, einen groß angelegten, hochwertigen und vollständig offenen Datensatz für das T2I-Fine-Tuning. Fine-T2I umfasst 10 Aufgabenkombinationen, 32 Prompt-Kategorien, 11 visuelle Stile und 5 Prompt-Vorlagen und kombiniert synthetische Bilder, die von leistungsstarken modernen Modellen generiert wurden, mit sorgfältig kuratierten echten Bildern von professionellen Fotografen. Alle Stichproben wurden rigoros auf Text-Bild-Ausrichtung, visuelle Qualität und Prompt-Qualität gefiltert, wobei über 95 % der ursprünglichen Kandidaten entfernt wurden. Der endgültige Datensatz enthält über 6 Millionen Text-Bild-Paare, entspricht etwa 2 TB auf der Festplatte und nähert sich damit dem Umfang von Vortrainingsdatensätzen, bei gleichbleibender Fine-Tuning-Qualität. Bei einer Vielzahl von vortrainierten Diffusions- und autoregressiven Modellen verbessert das Fine-Tuning auf Fine-T2I durchgängig sowohl die Generierungsqualität als auch die Befolgung von Anweisungen, wie durch menschliche Bewertung, visuelle Vergleiche und automatische Metriken validiert wurde. Wir veröffentlichen Fine-T2I unter einer offenen Lizenz, um dazu beizutragen, die Datenlücke im T2I-Fine-Tuning in der Open-Source-Community zu schließen.
English
High-quality and open datasets remain a major bottleneck for text-to-image (T2I) fine-tuning. Despite rapid progress in model architectures and training pipelines, most publicly available fine-tuning datasets suffer from low resolution, poor text-image alignment, or limited diversity, resulting in a clear performance gap between open research models and enterprise-grade models. In this work, we present Fine-T2I, a large-scale, high-quality, and fully open dataset for T2I fine-tuning. Fine-T2I spans 10 task combinations, 32 prompt categories, 11 visual styles, and 5 prompt templates, and combines synthetic images generated by strong modern models with carefully curated real images from professional photographers. All samples are rigorously filtered for text-image alignment, visual fidelity, and prompt quality, with over 95% of initial candidates removed. The final dataset contains over 6 million text-image pairs, around 2 TB on disk, approaching the scale of pretraining datasets while maintaining fine-tuning-level quality. Across a diverse set of pretrained diffusion and autoregressive models, fine-tuning on Fine-T2I consistently improves both generation quality and instruction adherence, as validated by human evaluation, visual comparison, and automatic metrics. We release Fine-T2I under an open license to help close the data gap in T2I fine-tuning in the open community.