합성 이미지의 모델 학습을 위한 스케일링 법칙 ... 현재로서는
Scaling Laws of Synthetic Images for Model Training ... for Now
December 7, 2023
저자: Lijie Fan, Kaifeng Chen, Dilip Krishnan, Dina Katabi, Phillip Isola, Yonglong Tian
cs.AI
초록
최근 텍스트-이미지 모델의 중요한 발전으로 인해 합성 이미지를 사용하여 시각 시스템을 훈련시킬 가능성이 열렸으며, 이는 대규모로 정제된 데이터를 수집하는 어려움을 잠재적으로 극복할 수 있는 방법으로 여겨진다. 그러나 이러한 모델들이 더 많은 합성 데이터가 훈련 세트에 추가됨에 따라 대규모로 어떻게 동작하는지는 명확하지 않다. 본 논문에서는 최첨단 텍스트-이미지 모델로 생성된 합성 이미지의 스케일링 법칙을 연구하며, 지도 학습 모델(레이블 지도가 있는 이미지 분류기 및 언어 지도가 있는 CLIP)의 훈련에 초점을 맞춘다. 우리는 텍스트 프롬프트, 분류기 없는 지도 스케일, 텍스트-이미지 모델 유형 등이 스케일링 행동에 상당한 영향을 미치는 여러 요인을 확인했다. 이러한 요인들을 조정한 후, 합성 이미지가 CLIP 훈련에서 실제 이미지와 유사하지만 약간 덜 효과적인 스케일링 경향을 보이는 반면, 지도 이미지 분류기 훈련에서는 스케일링 성능이 크게 떨어지는 것을 관찰했다. 우리의 분석은 기성 텍스트-이미지 모델이 특정 개념을 생성하지 못하는 것이 이러한 성능 저하의 주요 원인이며, 이는 이미지 분류기 훈련에 상당한 영향을 미치는 한계로 나타났다. 또한 우리의 연구 결과는 합성 데이터의 스케일링이 다음과 같은 시나리오에서 특히 효과적일 수 있음을 시사한다: (1) 지도 학습 문제에 대해 실제 이미지 공급이 제한된 경우(예: ImageNet에서 50만 장 미만의 이미지), (2) 평가 데이터셋이 훈련 데이터와 크게 달라 분포 외 시나리오를 나타내는 경우, 또는 (3) 합성 데이터가 실제 이미지와 함께 사용되는 경우(CLIP 모델 훈련에서 입증된 바와 같이).
English
Recent significant advances in text-to-image models unlock the possibility of
training vision systems using synthetic images, potentially overcoming the
difficulty of collecting curated data at scale. It is unclear, however, how
these models behave at scale, as more synthetic data is added to the training
set. In this paper we study the scaling laws of synthetic images generated by
state of the art text-to-image models, for the training of supervised models:
image classifiers with label supervision, and CLIP with language supervision.
We identify several factors, including text prompts, classifier-free guidance
scale, and types of text-to-image models, that significantly affect scaling
behavior. After tuning these factors, we observe that synthetic images
demonstrate a scaling trend similar to, but slightly less effective than, real
images in CLIP training, while they significantly underperform in scaling when
training supervised image classifiers. Our analysis indicates that the main
reason for this underperformance is the inability of off-the-shelf
text-to-image models to generate certain concepts, a limitation that
significantly impairs the training of image classifiers. Our findings also
suggest that scaling synthetic data can be particularly effective in scenarios
such as: (1) when there is a limited supply of real images for a supervised
problem (e.g., fewer than 0.5 million images in ImageNet), (2) when the
evaluation dataset diverges significantly from the training data, indicating
the out-of-distribution scenario, or (3) when synthetic data is used in
conjunction with real images, as demonstrated in the training of CLIP models.