StableRep: Imagens Sintéticas de Modelos de Texto para Imagem como Fortes Aprendizes de Representação Visual

Resumo

Investigamos o potencial de aprender representações visuais utilizando imagens sintéticas geradas por modelos de texto para imagem. Esta é uma questão natural diante do excelente desempenho desses modelos na geração de imagens de alta qualidade. Consideramos especificamente o Stable Diffusion, um dos principais modelos de texto para imagem de código aberto. Mostramos que (1) quando o modelo generativo é configurado com uma escala adequada de orientação sem classificador, métodos de auto-supervisão treinados em imagens sintéticas podem igualar ou superar o desempenho de suas contrapartes treinadas em imagens reais; (2) ao tratar as múltiplas imagens geradas a partir do mesmo prompt de texto como positivas umas para as outras, desenvolvemos um método de aprendizado contrastivo multi-positivo, que chamamos de StableRep. Com apenas imagens sintéticas, as representações aprendidas pelo StableRep superam o desempenho das representações aprendidas por SimCLR e CLIP utilizando o mesmo conjunto de prompts de texto e imagens reais correspondentes, em grandes conjuntos de dados. Quando adicionamos ainda mais supervisão de linguagem, o StableRep treinado com 20 milhões de imagens sintéticas alcança uma precisão melhor do que o CLIP treinado com 50 milhões de imagens reais.

English

We investigate the potential of learning visual representations using synthetic images generated by text-to-image models. This is a natural question in the light of the excellent performance of such models in generating high-quality images. We consider specifically the Stable Diffusion, one of the leading open source text-to-image models. We show that (1) when the generative model is configured with proper classifier-free guidance scale, training self-supervised methods on synthetic images can match or beat the real image counterpart; (2) by treating the multiple images generated from the same text prompt as positives for each other, we develop a multi-positive contrastive learning method, which we call StableRep. With solely synthetic images, the representations learned by StableRep surpass the performance of representations learned by SimCLR and CLIP using the same set of text prompts and corresponding real images, on large scale datasets. When we further add language supervision, StableRep trained with 20M synthetic images achieves better accuracy than CLIP trained with 50M real images.

StableRep: Imagens Sintéticas de Modelos de Texto para Imagem como Fortes Aprendizes de Representação Visual

StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners

Resumo

Support