Leggi di Scalabilità delle Immagini Sintetiche per l'Addestramento dei Modelli ... Per Ora

Abstract

I recenti significativi progressi nei modelli text-to-image aprono la possibilità di addestrare sistemi di visione utilizzando immagini sintetiche, potenzialmente superando la difficoltà di raccogliere dati curati su larga scala. Non è chiaro, tuttavia, come questi modelli si comportino su larga scala man mano che vengono aggiunti più dati sintetici al set di addestramento. In questo articolo studiamo le leggi di scala delle immagini sintetiche generate da modelli text-to-image all'avanguardia, per l'addestramento di modelli supervisionati: classificatori di immagini con supervisione delle etichette e CLIP con supervisione linguistica. Identifichiamo diversi fattori, tra cui prompt di testo, scala di guida senza classificatore e tipi di modelli text-to-image, che influenzano significativamente il comportamento di scala. Dopo aver ottimizzato questi fattori, osserviamo che le immagini sintetiche dimostrano una tendenza di scala simile, ma leggermente meno efficace, rispetto alle immagini reali nell'addestramento di CLIP, mentre sottoperformano significativamente in termini di scala durante l'addestramento di classificatori di immagini supervisionati. La nostra analisi indica che la principale ragione di questa sottoperformance è l'incapacità dei modelli text-to-image disponibili di generare determinati concetti, una limitazione che compromette significativamente l'addestramento dei classificatori di immagini. I nostri risultati suggeriscono inoltre che il ridimensionamento dei dati sintetici può essere particolarmente efficace in scenari come: (1) quando c'è una fornitura limitata di immagini reali per un problema supervisionato (ad esempio, meno di 0,5 milioni di immagini in ImageNet), (2) quando il dataset di valutazione diverge significativamente dai dati di addestramento, indicando uno scenario out-of-distribution, o (3) quando i dati sintetici vengono utilizzati in combinazione con immagini reali, come dimostrato nell'addestramento dei modelli CLIP.

English

Recent significant advances in text-to-image models unlock the possibility of training vision systems using synthetic images, potentially overcoming the difficulty of collecting curated data at scale. It is unclear, however, how these models behave at scale, as more synthetic data is added to the training set. In this paper we study the scaling laws of synthetic images generated by state of the art text-to-image models, for the training of supervised models: image classifiers with label supervision, and CLIP with language supervision. We identify several factors, including text prompts, classifier-free guidance scale, and types of text-to-image models, that significantly affect scaling behavior. After tuning these factors, we observe that synthetic images demonstrate a scaling trend similar to, but slightly less effective than, real images in CLIP training, while they significantly underperform in scaling when training supervised image classifiers. Our analysis indicates that the main reason for this underperformance is the inability of off-the-shelf text-to-image models to generate certain concepts, a limitation that significantly impairs the training of image classifiers. Our findings also suggest that scaling synthetic data can be particularly effective in scenarios such as: (1) when there is a limited supply of real images for a supervised problem (e.g., fewer than 0.5 million images in ImageNet), (2) when the evaluation dataset diverges significantly from the training data, indicating the out-of-distribution scenario, or (3) when synthetic data is used in conjunction with real images, as demonstrated in the training of CLIP models.

Leggi di Scalabilità delle Immagini Sintetiche per l'Addestramento dei Modelli ... Per Ora

Scaling Laws of Synthetic Images for Model Training ... for Now

Abstract

Support