Lois d'échelle des images synthétiques pour l'entraînement des modèles... pour l'instant
Scaling Laws of Synthetic Images for Model Training ... for Now
December 7, 2023
Auteurs: Lijie Fan, Kaifeng Chen, Dilip Krishnan, Dina Katabi, Phillip Isola, Yonglong Tian
cs.AI
Résumé
Les avancées récentes significatives dans les modèles de génération d'images à partir de texte ouvrent la possibilité d'entraîner des systèmes de vision par ordinateur en utilisant des images synthétiques, surmontant potentiellement la difficulté de collecter des données annotées à grande échelle. Cependant, il reste incertain comment ces modèles se comportent à grande échelle lorsque davantage de données synthétiques sont ajoutées à l'ensemble d'entraînement. Dans cet article, nous étudions les lois d'échelle des images synthétiques générées par des modèles de pointe de génération d'images à partir de texte, pour l'entraînement de modèles supervisés : des classificateurs d'images avec supervision par étiquettes, et CLIP avec supervision linguistique. Nous identifions plusieurs facteurs, notamment les prompts textuels, l'échelle de guidance sans classificateur, et les types de modèles de génération d'images à partir de texte, qui influencent significativement le comportement d'échelle. Après avoir ajusté ces facteurs, nous observons que les images synthétiques présentent une tendance d'échelle similaire, mais légèrement moins efficace, à celle des images réelles dans l'entraînement de CLIP, tandis qu'elles sous-performent significativement en termes d'échelle lors de l'entraînement de classificateurs d'images supervisés. Notre analyse indique que la principale raison de cette sous-performance est l'incapacité des modèles de génération d'images à partir de texte disponibles sur le marché à générer certains concepts, une limitation qui affecte significativement l'entraînement des classificateurs d'images. Nos résultats suggèrent également que l'échelle des données synthétiques peut être particulièrement efficace dans des scénarios tels que : (1) lorsqu'il y a une offre limitée d'images réelles pour un problème supervisé (par exemple, moins de 0,5 million d'images dans ImageNet), (2) lorsque l'ensemble de données d'évaluation diverge significativement des données d'entraînement, indiquant un scénario hors distribution, ou (3) lorsque les données synthétiques sont utilisées conjointement avec des images réelles, comme démontré dans l'entraînement des modèles CLIP.
English
Recent significant advances in text-to-image models unlock the possibility of
training vision systems using synthetic images, potentially overcoming the
difficulty of collecting curated data at scale. It is unclear, however, how
these models behave at scale, as more synthetic data is added to the training
set. In this paper we study the scaling laws of synthetic images generated by
state of the art text-to-image models, for the training of supervised models:
image classifiers with label supervision, and CLIP with language supervision.
We identify several factors, including text prompts, classifier-free guidance
scale, and types of text-to-image models, that significantly affect scaling
behavior. After tuning these factors, we observe that synthetic images
demonstrate a scaling trend similar to, but slightly less effective than, real
images in CLIP training, while they significantly underperform in scaling when
training supervised image classifiers. Our analysis indicates that the main
reason for this underperformance is the inability of off-the-shelf
text-to-image models to generate certain concepts, a limitation that
significantly impairs the training of image classifiers. Our findings also
suggest that scaling synthetic data can be particularly effective in scenarios
such as: (1) when there is a limited supply of real images for a supervised
problem (e.g., fewer than 0.5 million images in ImageNet), (2) when the
evaluation dataset diverges significantly from the training data, indicating
the out-of-distribution scenario, or (3) when synthetic data is used in
conjunction with real images, as demonstrated in the training of CLIP models.