StableRep: Synthetische afbeeldingen van tekst-naar-beeldmodellen vormen sterke visuele representatieleerders

Samenvatting

We onderzoeken het potentieel van het leren van visuele representaties met behulp van synthetische afbeeldingen die gegenereerd zijn door tekst-naar-beeldmodellen. Dit is een natuurlijke vraag gezien de uitstekende prestaties van dergelijke modellen in het genereren van hoogwaardige afbeeldingen. We richten ons specifiek op Stable Diffusion, een van de toonaangevende open-source tekst-naar-beeldmodellen. We tonen aan dat (1) wanneer het generatieve model is geconfigureerd met een geschikte classifier-free guidance-schaal, het trainen van zelfgesuperviseerde methoden op synthetische afbeeldingen kan concurreren met of zelfs beter presteren dan de tegenhanger met echte afbeeldingen; (2) door de meerdere afbeeldingen die gegenereerd zijn vanuit dezelfde tekstprompt als positieve voorbeelden voor elkaar te behandelen, ontwikkelen we een multi-positieve contrastieve leermethode, die we StableRep noemen. Met uitsluitend synthetische afbeeldingen overtreffen de representaties die door StableRep zijn geleerd de prestaties van representaties die zijn geleerd door SimCLR en CLIP met behulp van dezelfde set tekstprompts en bijbehorende echte afbeeldingen, op grootschalige datasets. Wanneer we verder taalsupervisie toevoegen, bereikt StableRep getraind met 20 miljoen synthetische afbeeldingen een betere nauwkeurigheid dan CLIP getraind met 50 miljoen echte afbeeldingen.

English

We investigate the potential of learning visual representations using synthetic images generated by text-to-image models. This is a natural question in the light of the excellent performance of such models in generating high-quality images. We consider specifically the Stable Diffusion, one of the leading open source text-to-image models. We show that (1) when the generative model is configured with proper classifier-free guidance scale, training self-supervised methods on synthetic images can match or beat the real image counterpart; (2) by treating the multiple images generated from the same text prompt as positives for each other, we develop a multi-positive contrastive learning method, which we call StableRep. With solely synthetic images, the representations learned by StableRep surpass the performance of representations learned by SimCLR and CLIP using the same set of text prompts and corresponding real images, on large scale datasets. When we further add language supervision, StableRep trained with 20M synthetic images achieves better accuracy than CLIP trained with 50M real images.

StableRep: Synthetische afbeeldingen van tekst-naar-beeldmodellen vormen sterke visuele representatieleerders

StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners

Samenvatting

Support