ChatPaper.aiChatPaper

Закономерности масштабирования синтетических изображений для обучения моделей... на данный момент

Scaling Laws of Synthetic Images for Model Training ... for Now

December 7, 2023
Авторы: Lijie Fan, Kaifeng Chen, Dilip Krishnan, Dina Katabi, Phillip Isola, Yonglong Tian
cs.AI

Аннотация

Недавние значительные достижения в моделях преобразования текста в изображения открывают возможность обучения систем компьютерного зрения с использованием синтетических изображений, что потенциально позволяет преодолеть трудности масштабного сбора тщательно отобранных данных. Однако остается неясным, как эти модели ведут себя при увеличении объема данных, когда в обучающий набор добавляется больше синтетических изображений. В данной статье мы исследуем законы масштабирования синтетических изображений, созданных современными моделями преобразования текста в изображения, для обучения моделей с учителем: классификаторов изображений с метками и моделей CLIP с языковым контролем. Мы выделяем несколько факторов, включая текстовые запросы, масштаб классификатора без учителя и типы моделей преобразования текста в изображения, которые существенно влияют на поведение при масштабировании. После настройки этих факторов мы наблюдаем, что синтетические изображения демонстрируют тенденцию масштабирования, схожую с реальными изображениями, но несколько менее эффективную при обучении моделей CLIP, в то время как они значительно уступают в масштабировании при обучении классификаторов изображений с учителем. Наш анализ показывает, что основной причиной этого отставания является неспособность готовых моделей преобразования текста в изображения генерировать определенные концепции, что существенно затрудняет обучение классификаторов изображений. Наши результаты также указывают на то, что масштабирование синтетических данных может быть особенно эффективным в следующих сценариях: (1) когда доступ к реальным изображениям для задачи с учителем ограничен (например, менее 0,5 миллиона изображений в ImageNet), (2) когда набор данных для оценки значительно отличается от обучающих данных, что указывает на сценарий вне распределения, или (3) когда синтетические данные используются совместно с реальными изображениями, как показано в обучении моделей CLIP.
English
Recent significant advances in text-to-image models unlock the possibility of training vision systems using synthetic images, potentially overcoming the difficulty of collecting curated data at scale. It is unclear, however, how these models behave at scale, as more synthetic data is added to the training set. In this paper we study the scaling laws of synthetic images generated by state of the art text-to-image models, for the training of supervised models: image classifiers with label supervision, and CLIP with language supervision. We identify several factors, including text prompts, classifier-free guidance scale, and types of text-to-image models, that significantly affect scaling behavior. After tuning these factors, we observe that synthetic images demonstrate a scaling trend similar to, but slightly less effective than, real images in CLIP training, while they significantly underperform in scaling when training supervised image classifiers. Our analysis indicates that the main reason for this underperformance is the inability of off-the-shelf text-to-image models to generate certain concepts, a limitation that significantly impairs the training of image classifiers. Our findings also suggest that scaling synthetic data can be particularly effective in scenarios such as: (1) when there is a limited supply of real images for a supervised problem (e.g., fewer than 0.5 million images in ImageNet), (2) when the evaluation dataset diverges significantly from the training data, indicating the out-of-distribution scenario, or (3) when synthetic data is used in conjunction with real images, as demonstrated in the training of CLIP models.
PDF80December 15, 2024