Fino a dove possiamo spingerci con ImageNet per la generazione di immagini da testo?
How far can we go with ImageNet for Text-to-Image generation?
February 28, 2025
Autori: L. Degeorge, A. Ghosh, N. Dufour, D. Picard, V. Kalogeiton
cs.AI
Abstract
I recenti modelli di generazione testo-immagine (T2I) hanno ottenuto risultati straordinari addestrandosi su dataset di scala miliardaria, seguendo un paradigma "più grande è meglio" che privilegia la quantità dei dati rispetto alla qualità. Mettiamo in discussione questo paradigma consolidato dimostrando che un aumento strategico dei dati su piccoli dataset ben curati può eguagliare o superare i modelli addestrati su enormi raccolte di dati web. Utilizzando solo ImageNet potenziato con aumentazioni ben progettate di testo e immagini, otteniamo un punteggio complessivo superiore di +2 rispetto a SD-XL su GenEval e di +5 su DPGBench, utilizzando solo 1/10 dei parametri e 1/1000 delle immagini di addestramento. I nostri risultati suggeriscono che un aumento strategico dei dati, piuttosto che dataset massicci, potrebbe offrire un percorso più sostenibile per la generazione T2I.
English
Recent text-to-image (T2I) generation models have achieved remarkable results
by training on billion-scale datasets, following a `bigger is better' paradigm
that prioritizes data quantity over quality. We challenge this established
paradigm by demonstrating that strategic data augmentation of small,
well-curated datasets can match or outperform models trained on massive
web-scraped collections. Using only ImageNet enhanced with well-designed text
and image augmentations, we achieve a +2 overall score over SD-XL on GenEval
and +5 on DPGBench while using just 1/10th the parameters and 1/1000th the
training images. Our results suggest that strategic data augmentation, rather
than massive datasets, could offer a more sustainable path forward for T2I
generation.Summary
AI-Generated Summary