Skalierungsgesetze synthetischer Bilder für das Modelltraining ... vorerst
Scaling Laws of Synthetic Images for Model Training ... for Now
December 7, 2023
Autoren: Lijie Fan, Kaifeng Chen, Dilip Krishnan, Dina Katabi, Phillip Isola, Yonglong Tian
cs.AI
Zusammenfassung
Jüngste bedeutende Fortschritte in Text-zu-Bild-Modellen eröffnen die Möglichkeit, visuelle Systeme mit synthetischen Bildern zu trainieren, wodurch potenziell die Schwierigkeit überwunden werden kann, kuratierte Daten in großem Maßstab zu sammeln. Es ist jedoch unklar, wie sich diese Modelle im großen Maßstab verhalten, wenn mehr synthetische Daten zum Trainingsdatensatz hinzugefügt werden. In dieser Arbeit untersuchen wir die Skalierungsgesetze von synthetischen Bildern, die von modernsten Text-zu-Bild-Modellen generiert werden, für das Training von überwachten Modellen: Bildklassifikatoren mit Label-Supervision und CLIP mit Sprach-Supervision. Wir identifizieren mehrere Faktoren, darunter Text-Prompts, Classifier-Free-Guidance-Scale und die Art der Text-zu-Bild-Modelle, die das Skalierungsverhalten signifikant beeinflussen. Nach der Feinabstimmung dieser Faktoren beobachten wir, dass synthetische Bilder in CLIP-Trainings einen ähnlichen, aber leicht weniger effektiven Skalierungstrend aufweisen als echte Bilder, während sie beim Training von überwachten Bildklassifikatoren deutlich schlechter abschneiden. Unsere Analyse zeigt, dass der Hauptgrund für diese Unterlegenheit die Unfähigkeit von Standard-Text-zu-Bild-Modellen ist, bestimmte Konzepte zu generieren, was das Training von Bildklassifikatoren erheblich beeinträchtigt. Unsere Ergebnisse deuten auch darauf hin, dass die Skalierung synthetischer Daten in Szenarien besonders effektiv sein kann, wie z. B.: (1) wenn es nur eine begrenzte Menge an echten Bildern für ein überwachtes Problem gibt (z. B. weniger als 0,5 Millionen Bilder in ImageNet), (2) wenn der Evaluierungsdatensatz erheblich von den Trainingsdaten abweicht, was auf ein Out-of-Distribution-Szenario hinweist, oder (3) wenn synthetische Daten in Kombination mit echten Bildern verwendet werden, wie beim Training von CLIP-Modellen gezeigt.
English
Recent significant advances in text-to-image models unlock the possibility of
training vision systems using synthetic images, potentially overcoming the
difficulty of collecting curated data at scale. It is unclear, however, how
these models behave at scale, as more synthetic data is added to the training
set. In this paper we study the scaling laws of synthetic images generated by
state of the art text-to-image models, for the training of supervised models:
image classifiers with label supervision, and CLIP with language supervision.
We identify several factors, including text prompts, classifier-free guidance
scale, and types of text-to-image models, that significantly affect scaling
behavior. After tuning these factors, we observe that synthetic images
demonstrate a scaling trend similar to, but slightly less effective than, real
images in CLIP training, while they significantly underperform in scaling when
training supervised image classifiers. Our analysis indicates that the main
reason for this underperformance is the inability of off-the-shelf
text-to-image models to generate certain concepts, a limitation that
significantly impairs the training of image classifiers. Our findings also
suggest that scaling synthetic data can be particularly effective in scenarios
such as: (1) when there is a limited supply of real images for a supervised
problem (e.g., fewer than 0.5 million images in ImageNet), (2) when the
evaluation dataset diverges significantly from the training data, indicating
the out-of-distribution scenario, or (3) when synthetic data is used in
conjunction with real images, as demonstrated in the training of CLIP models.