Fine-T2I: 高品質なT2Iファインチューニングのための公開・大規模・多様なデータセット
Fine-T2I: An Open, Large-Scale, and Diverse Dataset for High-Quality T2I Fine-Tuning
February 10, 2026
著者: Xu Ma, Yitian Zhang, Qihua Dong, Yun Fu
cs.AI
要旨
高品質かつオープンなデータセットは、テキストから画像への変換(T2I)ファインチューニングにおける主要なボトルネックであり続けている。モデルアーキテクチャや学習パイプラインが急速に進歩しているにもかかわらず、公開されているファインチューニング用データセットのほとんどは、解像度の低さ、テキストと画像の対応関係の不正確さ、あるいは多様性の欠如に悩まされており、オープンな研究モデルとエンタープライズ向けモデルとの間には明らかな性能差が生じている。本研究では、T2Iファインチューニングのための大規模、高品質、かつ完全にオープンなデータセット「Fine-T2I」を提案する。Fine-T2Iは、10のタスク組み合わせ、32のプロンプトカテゴリ、11の視覚スタイル、5つのプロンプトテンプレートを網羅し、強力な最新モデルによって生成された合成画像と、プロの写真家による厳選された実画像とを組み合わせている。全てのサンプルは、テキストと画像の対応関係、視覚的忠実度、プロンプトの品質について厳格にフィルタリングされ、初期候補の95%以上が除去されている。最終的なデータセットは600万以上のテキスト-画像ペアを含み、ディスク容量は約2TBに及び、ファインチューニングレベルの品質を維持しながら事前学習データセットの規模に迫っている。多様な事前学習済み拡散モデルおよび自己回帰モデルにおいて、Fine-T2Iによるファインチューニングは、人間による評価、視覚的比較、自動評価指標によって検証されたように、生成品質と指示への忠実度の両方を一貫して向上させた。我々はFine-T2Iをオープンライセンスの下で公開し、オープンコミュニティにおけるT2Iファインチューニングのデータ格差を解消する一助としたい。
English
High-quality and open datasets remain a major bottleneck for text-to-image (T2I) fine-tuning. Despite rapid progress in model architectures and training pipelines, most publicly available fine-tuning datasets suffer from low resolution, poor text-image alignment, or limited diversity, resulting in a clear performance gap between open research models and enterprise-grade models. In this work, we present Fine-T2I, a large-scale, high-quality, and fully open dataset for T2I fine-tuning. Fine-T2I spans 10 task combinations, 32 prompt categories, 11 visual styles, and 5 prompt templates, and combines synthetic images generated by strong modern models with carefully curated real images from professional photographers. All samples are rigorously filtered for text-image alignment, visual fidelity, and prompt quality, with over 95% of initial candidates removed. The final dataset contains over 6 million text-image pairs, around 2 TB on disk, approaching the scale of pretraining datasets while maintaining fine-tuning-level quality. Across a diverse set of pretrained diffusion and autoregressive models, fine-tuning on Fine-T2I consistently improves both generation quality and instruction adherence, as validated by human evaluation, visual comparison, and automatic metrics. We release Fine-T2I under an open license to help close the data gap in T2I fine-tuning in the open community.