Jusqu'où pouvons-nous aller avec ImageNet pour la génération de texte à image ?
How far can we go with ImageNet for Text-to-Image generation?
February 28, 2025
Auteurs: L. Degeorge, A. Ghosh, N. Dufour, D. Picard, V. Kalogeiton
cs.AI
Résumé
Les modèles récents de génération texte-image (T2I) ont obtenu des résultats remarquables en s'entraînant sur des jeux de données à l'échelle du milliard, suivant un paradigme "plus grand est meilleur" qui privilégie la quantité de données plutôt que leur qualité. Nous remettons en question ce paradigme établi en démontrant qu'une augmentation stratégique des données sur de petits ensembles soigneusement sélectionnés peut égaler ou surpasser les modèles entraînés sur des collections massives extraites du web. En utilisant uniquement ImageNet enrichi par des augmentations de texte et d'image bien conçues, nous obtenons un score global supérieur de +2 par rapport à SD-XL sur GenEval et de +5 sur DPGBench, tout en utilisant seulement 1/10e des paramètres et 1/1000e des images d'entraînement. Nos résultats suggèrent qu'une augmentation stratégique des données, plutôt que des ensembles de données massifs, pourrait offrir une voie plus durable pour la génération T2I.
English
Recent text-to-image (T2I) generation models have achieved remarkable results
by training on billion-scale datasets, following a `bigger is better' paradigm
that prioritizes data quantity over quality. We challenge this established
paradigm by demonstrating that strategic data augmentation of small,
well-curated datasets can match or outperform models trained on massive
web-scraped collections. Using only ImageNet enhanced with well-designed text
and image augmentations, we achieve a +2 overall score over SD-XL on GenEval
and +5 on DPGBench while using just 1/10th the parameters and 1/1000th the
training images. Our results suggest that strategic data augmentation, rather
than massive datasets, could offer a more sustainable path forward for T2I
generation.Summary
AI-Generated Summary