StableRep: Синтетические изображения из моделей текст-в-изображение как мощный инструмент для обучения визуальных представлений
StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners
June 1, 2023
Авторы: Yonglong Tian, Lijie Fan, Phillip Isola, Huiwen Chang, Dilip Krishnan
cs.AI
Аннотация
Мы исследуем потенциал обучения визуальных представлений с использованием синтетических изображений, сгенерированных моделями преобразования текста в изображение. Этот вопрос естественно возникает в свете выдающейся производительности таких моделей в создании высококачественных изображений. В частности, мы рассматриваем Stable Diffusion — одну из ведущих открытых моделей преобразования текста в изображение. Мы показываем, что (1) при правильной настройке генеративной модели с использованием масштаба классификатор-свободного управления, обучение методов самоконтроля на синтетических изображениях может соответствовать или превосходить результаты, полученные на реальных изображениях; (2) рассматривая несколько изображений, сгенерированных из одного текстового запроса, как позитивные примеры друг для друга, мы разрабатываем метод контрастного обучения с множеством позитивных примеров, который мы называем StableRep. Используя исключительно синтетические изображения, представления, изученные StableRep, превосходят по производительности представления, изученные SimCLR и CLIP, на основе одного и того же набора текстовых запросов и соответствующих реальных изображений, на крупномасштабных наборах данных. При добавлении языкового контроля, StableRep, обученный на 20 миллионах синтетических изображений, достигает более высокой точности, чем CLIP, обученный на 50 миллионах реальных изображений.
English
We investigate the potential of learning visual representations using
synthetic images generated by text-to-image models. This is a natural question
in the light of the excellent performance of such models in generating
high-quality images. We consider specifically the Stable Diffusion, one of the
leading open source text-to-image models. We show that (1) when the generative
model is configured with proper classifier-free guidance scale, training
self-supervised methods on synthetic images can match or beat the real image
counterpart; (2) by treating the multiple images generated from the same text
prompt as positives for each other, we develop a multi-positive contrastive
learning method, which we call StableRep. With solely synthetic images, the
representations learned by StableRep surpass the performance of representations
learned by SimCLR and CLIP using the same set of text prompts and corresponding
real images, on large scale datasets. When we further add language supervision,
StableRep trained with 20M synthetic images achieves better accuracy than CLIP
trained with 50M real images.