ChatPaper.aiChatPaper

Fine-T2I: Открытый, крупномасштабный и разнообразный набор данных для высококачественной тонкой настройки T2I

Fine-T2I: An Open, Large-Scale, and Diverse Dataset for High-Quality T2I Fine-Tuning

February 10, 2026
Авторы: Xu Ma, Yitian Zhang, Qihua Dong, Yun Fu
cs.AI

Аннотация

Высококачественные и открытые наборы данных по-прежнему остаются основным узким местом для тонкой настройки моделей «текст-изображение» (T2I). Несмотря на быстрый прогресс в архитектурах моделей и конвейерах обучения, большинство общедоступных наборов данных для тонкой настройки страдают от низкого разрешения, слабого соответствия текста и изображения или ограниченного разнообразия, что приводит к явному разрыву в производительности между открытыми исследовательскими моделями и моделями корпоративного уровня. В данной работе мы представляем Fine-T2I — масштабный, высококачественный и полностью открытый набор данных для тонкой настройки T2I. Fine-T2I охватывает 10 комбинаций задач, 32 категории промптов, 11 визуальных стилей и 5 шаблонов промптов, а также сочетает синтетические изображения, сгенерированные современными мощными моделями, с тщательно отобранными реальными изображениями от профессиональных фотографов. Все образцы прошли строгую фильтрацию на соответствие текста и изображения, визуальное качество и качество промптов, в результате чего было отсеяно более 95% первоначальных кандидатов. Итоговый набор данных содержит более 6 миллионов пар «текст-изображение», занимая около 2 ТБ на диске, что приближается к масштабу наборов для предварительного обучения при сохранении качества, характерного для тонкой настройки. Для разнообразного набора предобученных диффузионных и авторегрессионных моделей тонкая настройка на Fine-T2I последовательно улучшает как качество генерации, так и следование инструкциям, что подтверждается экспертной оценкой, визуальным сравнением и автоматическими метриками. Мы публикуем Fine-T2I под открытой лицензией, чтобы помочь сократить разрыв в данных для тонкой настройки T2I в открытом сообществе.
English
High-quality and open datasets remain a major bottleneck for text-to-image (T2I) fine-tuning. Despite rapid progress in model architectures and training pipelines, most publicly available fine-tuning datasets suffer from low resolution, poor text-image alignment, or limited diversity, resulting in a clear performance gap between open research models and enterprise-grade models. In this work, we present Fine-T2I, a large-scale, high-quality, and fully open dataset for T2I fine-tuning. Fine-T2I spans 10 task combinations, 32 prompt categories, 11 visual styles, and 5 prompt templates, and combines synthetic images generated by strong modern models with carefully curated real images from professional photographers. All samples are rigorously filtered for text-image alignment, visual fidelity, and prompt quality, with over 95% of initial candidates removed. The final dataset contains over 6 million text-image pairs, around 2 TB on disk, approaching the scale of pretraining datasets while maintaining fine-tuning-level quality. Across a diverse set of pretrained diffusion and autoregressive models, fine-tuning on Fine-T2I consistently improves both generation quality and instruction adherence, as validated by human evaluation, visual comparison, and automatic metrics. We release Fine-T2I under an open license to help close the data gap in T2I fine-tuning in the open community.
PDF101February 12, 2026