ImageNetをテキストから画像生成に活用する限界はどこまでか?
How far can we go with ImageNet for Text-to-Image generation?
February 28, 2025
著者: L. Degeorge, A. Ghosh, N. Dufour, D. Picard, V. Kalogeiton
cs.AI
要旨
最近のテキストから画像(T2I)生成モデルは、ビッグデータを重視する「大きければ良い」というパラダイムに従い、数十億規模のデータセットで学習することで驚くべき結果を達成してきました。私たちはこの確立されたパラダイムに挑戦し、小さくてもよく精選されたデータセットに対する戦略的なデータ拡張が、大規模なウェブスクレイピングされたコレクションで学習したモデルに匹敵するか、それを上回ることを実証します。ImageNetに設計されたテキストと画像の拡張を施しただけで、SD-XLに対してGenEvalで+2、DPGBenchで+5のスコア向上を達成し、パラメータ数は1/10、学習画像数は1/1000で済みました。私たちの結果は、大規模なデータセットではなく、戦略的なデータ拡張がT2I生成の持続可能な道を提供する可能性を示唆しています。
English
Recent text-to-image (T2I) generation models have achieved remarkable results
by training on billion-scale datasets, following a `bigger is better' paradigm
that prioritizes data quantity over quality. We challenge this established
paradigm by demonstrating that strategic data augmentation of small,
well-curated datasets can match or outperform models trained on massive
web-scraped collections. Using only ImageNet enhanced with well-designed text
and image augmentations, we achieve a +2 overall score over SD-XL on GenEval
and +5 on DPGBench while using just 1/10th the parameters and 1/1000th the
training images. Our results suggest that strategic data augmentation, rather
than massive datasets, could offer a more sustainable path forward for T2I
generation.Summary
AI-Generated Summary