Fine-T2I: Um Conjunto de Dados Aberto, de Grande Escala e Diversificado para o Ajuste Fino de Alta Qualidade em T2I

Resumo

Conjuntos de dados de alta qualidade e abertos continuam sendo um grande gargalo para o *fine-tuning* de texto para imagem (T2I). Apesar do rápido progresso nas arquiteturas de modelo e *pipelines* de treinamento, a maioria dos conjuntos de dados de *fine-tuning* disponíveis publicamente sofre com baixa resolução, baixo alinhamento texto-imagem ou diversidade limitada, resultando numa clara diferença de desempenho entre os modelos abertos de pesquisa e os modelos de nível empresarial. Neste trabalho, apresentamos o Fine-T2I, um conjunto de dados em larga escala, de alta qualidade e totalmente aberto para *fine-tuning* de T2I. O Fine-T2I abrange 10 combinações de tarefas, 32 categorias de *prompts*, 11 estilos visuais e 5 modelos de *prompt*, e combina imagens sintéticas geradas por modelos modernos robustos com imagens reais criteriosamente selecionadas de fotógrafos profissionais. Todas as amostras são rigorosamente filtradas quanto ao alinhamento texto-imagem, fidelidade visual e qualidade do *prompt*, com mais de 95% dos candidatos iniciais removidos. O conjunto de dados final contém mais de 6 milhões de pares texto-imagem, ocupando cerca de 2 TB em disco, aproximando-se da escala dos conjuntos de dados de pré-treinamento, mantendo a qualidade de nível de *fine-tuning*. Num conjunto diversificado de modelos de difusão e autorregressivos pré-treinados, o *fine-tuning* com o Fine-T2I melhora consistentemente tanto a qualidade da geração quanto a aderência à instrução, conforme validado por avaliação humana, comparação visual e métricas automáticas. Disponibilizamos o Fine-T2I sob uma licença aberta para ajudar a reduzir a lacuna de dados no *fine-tuning* de T2I na comunidade aberta.

English

High-quality and open datasets remain a major bottleneck for text-to-image (T2I) fine-tuning. Despite rapid progress in model architectures and training pipelines, most publicly available fine-tuning datasets suffer from low resolution, poor text-image alignment, or limited diversity, resulting in a clear performance gap between open research models and enterprise-grade models. In this work, we present Fine-T2I, a large-scale, high-quality, and fully open dataset for T2I fine-tuning. Fine-T2I spans 10 task combinations, 32 prompt categories, 11 visual styles, and 5 prompt templates, and combines synthetic images generated by strong modern models with carefully curated real images from professional photographers. All samples are rigorously filtered for text-image alignment, visual fidelity, and prompt quality, with over 95% of initial candidates removed. The final dataset contains over 6 million text-image pairs, around 2 TB on disk, approaching the scale of pretraining datasets while maintaining fine-tuning-level quality. Across a diverse set of pretrained diffusion and autoregressive models, fine-tuning on Fine-T2I consistently improves both generation quality and instruction adherence, as validated by human evaluation, visual comparison, and automatic metrics. We release Fine-T2I under an open license to help close the data gap in T2I fine-tuning in the open community.

Fine-T2I: Um Conjunto de Dados Aberto, de Grande Escala e Diversificado para o Ajuste Fino de Alta Qualidade em T2I

Fine-T2I: An Open, Large-Scale, and Diverse Dataset for High-Quality T2I Fine-Tuning

Resumo

Support