ChatPaper.aiChatPaper

Hoe ver kunnen we gaan met ImageNet voor tekst-naar-beeldgeneratie?

How far can we go with ImageNet for Text-to-Image generation?

February 28, 2025
Auteurs: L. Degeorge, A. Ghosh, N. Dufour, D. Picard, V. Kalogeiton
cs.AI

Samenvatting

Recente tekst-naar-beeld (T2I) generatiemodellen hebben opmerkelijke resultaten behaald door te trainen op datasets van miljarden schaal, waarbij een 'groter is beter'-paradigma wordt gevolgd dat de hoeveelheid data boven de kwaliteit stelt. Wij dagen dit gevestigde paradigma uit door aan te tonen dat strategische data-augmentatie van kleine, goed samengestelde datasets modellen die getraind zijn op enorme, van het web geschraapte collecties, kan evenaren of overtreffen. Door alleen ImageNet te gebruiken, versterkt met goed ontworpen tekst- en beeldaugmentaties, behalen we een +2 algemene score ten opzichte van SD-XL op GenEval en +5 op DPGBench, terwijl we slechts 1/10e van de parameters en 1/1000e van de trainingsafbeeldingen gebruiken. Onze resultaten suggereren dat strategische data-augmentatie, in plaats van enorme datasets, een duurzamere weg vooruit zou kunnen bieden voor T2I-generatie.
English
Recent text-to-image (T2I) generation models have achieved remarkable results by training on billion-scale datasets, following a `bigger is better' paradigm that prioritizes data quantity over quality. We challenge this established paradigm by demonstrating that strategic data augmentation of small, well-curated datasets can match or outperform models trained on massive web-scraped collections. Using only ImageNet enhanced with well-designed text and image augmentations, we achieve a +2 overall score over SD-XL on GenEval and +5 on DPGBench while using just 1/10th the parameters and 1/1000th the training images. Our results suggest that strategic data augmentation, rather than massive datasets, could offer a more sustainable path forward for T2I generation.

Summary

AI-Generated Summary

PDF262March 3, 2025