ChatPaper.aiChatPaper

Fine-T2I: 고품질 T2I 미세 조정을 위한 공개적이고 대규모이며 다양한 데이터셋

Fine-T2I: An Open, Large-Scale, and Diverse Dataset for High-Quality T2I Fine-Tuning

February 10, 2026
저자: Xu Ma, Yitian Zhang, Qihua Dong, Yun Fu
cs.AI

초록

고품질의 오픈 데이터셋은 텍스트-이미지(T2I) 미세 조정의 주요 병목 현상으로 남아 있습니다. 모델 아키텍처와 학습 파이프라인의 급속한 발전에도 불구하고, 대부분의 공개 미세 조정 데이터셋은 낮은 해상도, 불량한 텍스트-이미지 정렬, 또는 제한된 다양성 문제를 겪어 오픈 연구 모델과 기업용 등급 모델 간에 뚜렷한 성능 격차를 초래하고 있습니다. 본 연구에서는 T2I 미세 조정을 위한 대규모, 고품질, 완전 오픈 데이터셋인 Fine-T2I를 제시합니다. Fine-T2I는 10가지 작업 조합, 32개의 프롬프트 범주, 11가지 시각적 스타일, 5개의 프롬프트 템플릿을 아우르며, 강력한 현대 모델들이 생성한 합성 이미지와 전문 사진작가들이 엄선한 실제 이미지를 결합했습니다. 모든 샘플은 텍스트-이미지 정렬, 시각적 정확도, 프롬프트 품질에 대해 엄격하게 필터링되어 초기 후보의 95% 이상이 제거되었습니다. 최종 데이터셋은 600만 개 이상의 텍스트-이미지 쌍을 포함하며 디스크 상 약 2TB의 규모로, 미세 조정 수준의 품질을 유지하면서 사전 학습 데이터셋의 규모에 근접합니다. 다양한 사전 학습된 디퓨전 및 자기회귀 모델을 대상으로 Fine-T2I를 이용한 미세 조정은 인간 평가, 시각적 비교, 자동 평가 지표를 통해 검증된 바와 같이 생성 품질과 지시 사항 준수도를 모두 지속적으로 향상시켰습니다. 우리는 Fine-T2I를 오픈 라이선스 하에 공개하여 오픈 커뮤니티 내 T2I 미세 조정의 데이터 격차를 해소하는 데 기여하고자 합니다.
English
High-quality and open datasets remain a major bottleneck for text-to-image (T2I) fine-tuning. Despite rapid progress in model architectures and training pipelines, most publicly available fine-tuning datasets suffer from low resolution, poor text-image alignment, or limited diversity, resulting in a clear performance gap between open research models and enterprise-grade models. In this work, we present Fine-T2I, a large-scale, high-quality, and fully open dataset for T2I fine-tuning. Fine-T2I spans 10 task combinations, 32 prompt categories, 11 visual styles, and 5 prompt templates, and combines synthetic images generated by strong modern models with carefully curated real images from professional photographers. All samples are rigorously filtered for text-image alignment, visual fidelity, and prompt quality, with over 95% of initial candidates removed. The final dataset contains over 6 million text-image pairs, around 2 TB on disk, approaching the scale of pretraining datasets while maintaining fine-tuning-level quality. Across a diverse set of pretrained diffusion and autoregressive models, fine-tuning on Fine-T2I consistently improves both generation quality and instruction adherence, as validated by human evaluation, visual comparison, and automatic metrics. We release Fine-T2I under an open license to help close the data gap in T2I fine-tuning in the open community.
PDF101February 12, 2026