Leis de Escalonamento de Imagens Sintéticas para Treinamento de Modelos... por Enquanto
Scaling Laws of Synthetic Images for Model Training ... for Now
December 7, 2023
Autores: Lijie Fan, Kaifeng Chen, Dilip Krishnan, Dina Katabi, Phillip Isola, Yonglong Tian
cs.AI
Resumo
Avanços recentes significativos em modelos de texto-para-imagem abrem a possibilidade de treinar sistemas de visão utilizando imagens sintéticas, potencialmente superando a dificuldade de coletar dados curados em grande escala. No entanto, ainda não está claro como esses modelos se comportam em escala, à medida que mais dados sintéticos são adicionados ao conjunto de treinamento. Neste artigo, estudamos as leis de escalonamento de imagens sintéticas geradas por modelos de texto-para-imagem de última geração, para o treinamento de modelos supervisionados: classificadores de imagens com supervisão de rótulos e CLIP com supervisão de linguagem. Identificamos vários fatores, incluindo prompts de texto, escala de orientação sem classificador e tipos de modelos de texto-para-imagem, que afetam significativamente o comportamento de escalonamento. Após ajustar esses fatores, observamos que as imagens sintéticas demonstram uma tendência de escalonamento semelhante, mas ligeiramente menos eficaz, do que as imagens reais no treinamento de CLIP, enquanto apresentam desempenho significativamente inferior no escalonamento ao treinar classificadores de imagens supervisionados. Nossa análise indica que a principal razão para esse desempenho inferior é a incapacidade dos modelos de texto-para-imagem prontos para uso de gerar certos conceitos, uma limitação que prejudica significativamente o treinamento de classificadores de imagens. Nossas descobertas também sugerem que o escalonamento de dados sintéticos pode ser particularmente eficaz em cenários como: (1) quando há um suprimento limitado de imagens reais para um problema supervisionado (por exemplo, menos de 0,5 milhão de imagens no ImageNet), (2) quando o conjunto de dados de avaliação diverge significativamente dos dados de treinamento, indicando um cenário fora da distribuição, ou (3) quando os dados sintéticos são usados em conjunto com imagens reais, conforme demonstrado no treinamento de modelos CLIP.
English
Recent significant advances in text-to-image models unlock the possibility of
training vision systems using synthetic images, potentially overcoming the
difficulty of collecting curated data at scale. It is unclear, however, how
these models behave at scale, as more synthetic data is added to the training
set. In this paper we study the scaling laws of synthetic images generated by
state of the art text-to-image models, for the training of supervised models:
image classifiers with label supervision, and CLIP with language supervision.
We identify several factors, including text prompts, classifier-free guidance
scale, and types of text-to-image models, that significantly affect scaling
behavior. After tuning these factors, we observe that synthetic images
demonstrate a scaling trend similar to, but slightly less effective than, real
images in CLIP training, while they significantly underperform in scaling when
training supervised image classifiers. Our analysis indicates that the main
reason for this underperformance is the inability of off-the-shelf
text-to-image models to generate certain concepts, a limitation that
significantly impairs the training of image classifiers. Our findings also
suggest that scaling synthetic data can be particularly effective in scenarios
such as: (1) when there is a limited supply of real images for a supervised
problem (e.g., fewer than 0.5 million images in ImageNet), (2) when the
evaluation dataset diverges significantly from the training data, indicating
the out-of-distribution scenario, or (3) when synthetic data is used in
conjunction with real images, as demonstrated in the training of CLIP models.