Fine-T2I: Un conjunto de datos abierto, a gran escala y diverso para el ajuste fino de alta calidad en T2I.
Fine-T2I: An Open, Large-Scale, and Diverse Dataset for High-Quality T2I Fine-Tuning
February 10, 2026
Autores: Xu Ma, Yitian Zhang, Qihua Dong, Yun Fu
cs.AI
Resumen
Los conjuntos de datos de alta calidad y abiertos siguen siendo un cuello de botella importante para el ajuste fino (fine-tuning) de texto a imagen (T2I). A pesar del rápido progreso en las arquitecturas de modelos y los flujos de entrenamiento, la mayoría de los conjuntos de datos de ajuste fino disponibles públicamente adolecen de baja resolución, escasa alineación texto-imagen o diversidad limitada, lo que resulta en una brecha de rendimiento clara entre los modelos de investigación abiertos y los modelos de nivel empresarial. En este trabajo, presentamos Fine-T2I, un conjunto de datos a gran escala, de alta calidad y completamente abierto para el ajuste fino T2I. Fine-T2I abarca 10 combinaciones de tareas, 32 categorías de instrucciones, 11 estilos visuales y 5 plantillas de instrucciones, y combina imágenes sintéticas generadas por modelos modernos potentes con imágenes reales cuidadosamente seleccionadas de fotógrafos profesionales. Todas las muestras se filtran rigurosamente en cuanto a alineación texto-imagen, fidelidad visual y calidad de la instrucción, eliminándose más del 95% de los candidatos iniciales. El conjunto de datos final contiene más de 6 millones de pares texto-imagen, aproximadamente 2 TB en disco, acercándose a la escala de los conjuntos de datos de preentrenamiento mientras mantiene una calidad de nivel de ajuste fino. En un conjunto diverso de modelos de difusión y autoregresivos preentrenados, el ajuste fino con Fine-T2I mejora consistentemente tanto la calidad de la generación como la adherencia a la instrucción, según lo validado por evaluación humana, comparación visual y métricas automáticas. Publicamos Fine-T2I bajo una licencia abierta para ayudar a cerrar la brecha de datos en el ajuste fino T2I en la comunidad abierta.
English
High-quality and open datasets remain a major bottleneck for text-to-image (T2I) fine-tuning. Despite rapid progress in model architectures and training pipelines, most publicly available fine-tuning datasets suffer from low resolution, poor text-image alignment, or limited diversity, resulting in a clear performance gap between open research models and enterprise-grade models. In this work, we present Fine-T2I, a large-scale, high-quality, and fully open dataset for T2I fine-tuning. Fine-T2I spans 10 task combinations, 32 prompt categories, 11 visual styles, and 5 prompt templates, and combines synthetic images generated by strong modern models with carefully curated real images from professional photographers. All samples are rigorously filtered for text-image alignment, visual fidelity, and prompt quality, with over 95% of initial candidates removed. The final dataset contains over 6 million text-image pairs, around 2 TB on disk, approaching the scale of pretraining datasets while maintaining fine-tuning-level quality. Across a diverse set of pretrained diffusion and autoregressive models, fine-tuning on Fine-T2I consistently improves both generation quality and instruction adherence, as validated by human evaluation, visual comparison, and automatic metrics. We release Fine-T2I under an open license to help close the data gap in T2I fine-tuning in the open community.