ChatPaper.aiChatPaper

StableRep : Les images synthétiques issues des modèles texte-image constituent d'excellents apprenants pour la représentation visuelle

StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners

June 1, 2023
Auteurs: Yonglong Tian, Lijie Fan, Phillip Isola, Huiwen Chang, Dilip Krishnan
cs.AI

Résumé

Nous étudions le potentiel de l'apprentissage de représentations visuelles à l'aide d'images synthétiques générées par des modèles de texte-à-image. Cette question se pose naturellement au vu des performances exceptionnelles de ces modèles dans la génération d'images de haute qualité. Nous considérons spécifiquement Stable Diffusion, l'un des principaux modèles open source de texte-à-image. Nous montrons que (1) lorsque le modèle génératif est configuré avec une échelle de guidage sans classifieur appropriée, l'entraînement de méthodes auto-supervisées sur des images synthétiques peut égaler ou surpasser leur équivalent sur des images réelles ; (2) en traitant les multiples images générées à partir de la même invite textuelle comme des positifs les unes pour les autres, nous développons une méthode d'apprentissage contrastif multi-positif, que nous appelons StableRep. Avec uniquement des images synthétiques, les représentations apprises par StableRep surpassent les performances des représentations apprises par SimCLR et CLIP utilisant le même ensemble d'invites textuelles et d'images réelles correspondantes, sur des jeux de données à grande échelle. Lorsque nous ajoutons en plus une supervision linguistique, StableRep entraîné avec 20 millions d'images synthétiques atteint une meilleure précision que CLIP entraîné avec 50 millions d'images réelles.
English
We investigate the potential of learning visual representations using synthetic images generated by text-to-image models. This is a natural question in the light of the excellent performance of such models in generating high-quality images. We consider specifically the Stable Diffusion, one of the leading open source text-to-image models. We show that (1) when the generative model is configured with proper classifier-free guidance scale, training self-supervised methods on synthetic images can match or beat the real image counterpart; (2) by treating the multiple images generated from the same text prompt as positives for each other, we develop a multi-positive contrastive learning method, which we call StableRep. With solely synthetic images, the representations learned by StableRep surpass the performance of representations learned by SimCLR and CLIP using the same set of text prompts and corresponding real images, on large scale datasets. When we further add language supervision, StableRep trained with 20M synthetic images achieves better accuracy than CLIP trained with 50M real images.
PDF41December 15, 2024