Schaalwetten van synthetische afbeeldingen voor modeltraining ... voor nu
Scaling Laws of Synthetic Images for Model Training ... for Now
December 7, 2023
Auteurs: Lijie Fan, Kaifeng Chen, Dilip Krishnan, Dina Katabi, Phillip Isola, Yonglong Tian
cs.AI
Samenvatting
Recente belangrijke vooruitgang in tekst-naar-beeldmodellen opent de mogelijkheid om visuele systemen te trainen met behulp van synthetische afbeeldingen, wat potentieel de moeilijkheid van het verzamelen van gecureerde data op grote schaal kan overwinnen. Het is echter onduidelijk hoe deze modellen zich op schaal gedragen naarmate er meer synthetische data aan de trainingsset wordt toegevoegd. In dit artikel bestuderen we de schaalwetten van synthetische afbeeldingen die gegenereerd zijn door state-of-the-art tekst-naar-beeldmodellen, voor het trainen van gesuperviseerde modellen: beeldclassificatoren met labelsupervisie, en CLIP met taalsupervisie. We identificeren verschillende factoren, waaronder tekstprompts, classifier-free guidance-schaal en soorten tekst-naar-beeldmodellen, die het schaalgedrag significant beïnvloeden. Na het afstemmen van deze factoren, observeren we dat synthetische afbeeldingen een schaaltrend vertonen die vergelijkbaar is met, maar iets minder effectief dan, echte afbeeldingen bij het trainen van CLIP, terwijl ze significant onderpresteren in schaal bij het trainen van gesuperviseerde beeldclassificatoren. Onze analyse geeft aan dat de belangrijkste reden voor deze onderprestatie het onvermogen is van standaard tekst-naar-beeldmodellen om bepaalde concepten te genereren, een beperking die het trainen van beeldclassificatoren significant belemmert. Onze bevindingen suggereren ook dat het schalen van synthetische data bijzonder effectief kan zijn in scenario's zoals: (1) wanneer er een beperkte voorraad echte afbeeldingen is voor een gesuperviseerd probleem (bijvoorbeeld minder dan 0,5 miljoen afbeeldingen in ImageNet), (2) wanneer de evaluatiedataset significant afwijkt van de trainingsdata, wat wijst op een out-of-distribution-scenario, of (3) wanneer synthetische data wordt gebruikt in combinatie met echte afbeeldingen, zoals aangetoond bij het trainen van CLIP-modellen.
English
Recent significant advances in text-to-image models unlock the possibility of
training vision systems using synthetic images, potentially overcoming the
difficulty of collecting curated data at scale. It is unclear, however, how
these models behave at scale, as more synthetic data is added to the training
set. In this paper we study the scaling laws of synthetic images generated by
state of the art text-to-image models, for the training of supervised models:
image classifiers with label supervision, and CLIP with language supervision.
We identify several factors, including text prompts, classifier-free guidance
scale, and types of text-to-image models, that significantly affect scaling
behavior. After tuning these factors, we observe that synthetic images
demonstrate a scaling trend similar to, but slightly less effective than, real
images in CLIP training, while they significantly underperform in scaling when
training supervised image classifiers. Our analysis indicates that the main
reason for this underperformance is the inability of off-the-shelf
text-to-image models to generate certain concepts, a limitation that
significantly impairs the training of image classifiers. Our findings also
suggest that scaling synthetic data can be particularly effective in scenarios
such as: (1) when there is a limited supply of real images for a supervised
problem (e.g., fewer than 0.5 million images in ImageNet), (2) when the
evaluation dataset diverges significantly from the training data, indicating
the out-of-distribution scenario, or (3) when synthetic data is used in
conjunction with real images, as demonstrated in the training of CLIP models.