Leyes de Escalado de Imágenes Sintéticas para el Entrenamiento de Modelos... por Ahora
Scaling Laws of Synthetic Images for Model Training ... for Now
December 7, 2023
Autores: Lijie Fan, Kaifeng Chen, Dilip Krishnan, Dina Katabi, Phillip Isola, Yonglong Tian
cs.AI
Resumen
Los recientes avances significativos en los modelos de texto a imagen abren la posibilidad de entrenar sistemas de visión utilizando imágenes sintéticas, lo que podría superar la dificultad de recopilar datos curados a gran escala. Sin embargo, no está claro cómo se comportan estos modelos a medida que se añaden más datos sintéticos al conjunto de entrenamiento. En este artículo estudiamos las leyes de escalamiento de imágenes sintéticas generadas por modelos de texto a imagen de última generación, para el entrenamiento de modelos supervisados: clasificadores de imágenes con supervisión de etiquetas y CLIP con supervisión lingüística. Identificamos varios factores, como los textos de entrada, la escala de guía sin clasificador y los tipos de modelos de texto a imagen, que afectan significativamente el comportamiento de escalamiento. Tras ajustar estos factores, observamos que las imágenes sintéticas muestran una tendencia de escalamiento similar, aunque ligeramente menos efectiva, a las imágenes reales en el entrenamiento de CLIP, mientras que su rendimiento es significativamente inferior al escalar en el entrenamiento de clasificadores de imágenes supervisados. Nuestro análisis indica que la principal razón de este bajo rendimiento es la incapacidad de los modelos de texto a imagen estándar para generar ciertos conceptos, una limitación que perjudica significativamente el entrenamiento de clasificadores de imágenes. Nuestros hallazgos también sugieren que el escalamiento de datos sintéticos puede ser particularmente efectivo en escenarios como: (1) cuando hay un suministro limitado de imágenes reales para un problema supervisado (por ejemplo, menos de 0.5 millones de imágenes en ImageNet), (2) cuando el conjunto de datos de evaluación diverge significativamente de los datos de entrenamiento, indicando un escenario fuera de distribución, o (3) cuando los datos sintéticos se utilizan junto con imágenes reales, como se demuestra en el entrenamiento de modelos CLIP.
English
Recent significant advances in text-to-image models unlock the possibility of
training vision systems using synthetic images, potentially overcoming the
difficulty of collecting curated data at scale. It is unclear, however, how
these models behave at scale, as more synthetic data is added to the training
set. In this paper we study the scaling laws of synthetic images generated by
state of the art text-to-image models, for the training of supervised models:
image classifiers with label supervision, and CLIP with language supervision.
We identify several factors, including text prompts, classifier-free guidance
scale, and types of text-to-image models, that significantly affect scaling
behavior. After tuning these factors, we observe that synthetic images
demonstrate a scaling trend similar to, but slightly less effective than, real
images in CLIP training, while they significantly underperform in scaling when
training supervised image classifiers. Our analysis indicates that the main
reason for this underperformance is the inability of off-the-shelf
text-to-image models to generate certain concepts, a limitation that
significantly impairs the training of image classifiers. Our findings also
suggest that scaling synthetic data can be particularly effective in scenarios
such as: (1) when there is a limited supply of real images for a supervised
problem (e.g., fewer than 0.5 million images in ImageNet), (2) when the
evaluation dataset diverges significantly from the training data, indicating
the out-of-distribution scenario, or (3) when synthetic data is used in
conjunction with real images, as demonstrated in the training of CLIP models.