StableRep: Synthetische Bilder aus Text-zu-Bild-Modellen als effektive visuelle Repräsentationslerner

Zusammenfassung

Wir untersuchen das Potenzial, visuelle Repräsentationen mithilfe von synthetischen Bildern zu lernen, die von Text-zu-Bild-Modellen generiert werden. Diese Fragestellung ergibt sich natürlich angesichts der hervorragenden Leistung solcher Modelle bei der Erzeugung hochwertiger Bilder. Wir betrachten speziell Stable Diffusion, eines der führenden Open-Source-Text-zu-Bild-Modelle. Wir zeigen, dass (1) wenn das generative Modell mit einer angemessenen classifier-free guidance scale konfiguriert ist, das Training selbstüberwachter Methoden auf synthetischen Bildern die Leistung von realen Bildern erreichen oder übertreffen kann; (2) indem wir die mehreren Bilder, die aus demselben Text-Prompt generiert werden, als positive Beispiele füreinander behandeln, entwickeln wir eine multi-positive kontrastive Lernmethode, die wir StableRep nennen. Mit ausschließlich synthetischen Bildern übertreffen die von StableRep gelernten Repräsentationen die Leistung der von SimCLR und CLIP gelernten Repräsentationen, die denselben Satz von Text-Prompts und entsprechenden realen Bildern verwenden, auf großen Datensätzen. Wenn wir zusätzlich Sprachaufsicht hinzufügen, erreicht StableRep, das mit 20M synthetischen Bildern trainiert wurde, eine bessere Genauigkeit als CLIP, das mit 50M realen Bildern trainiert wurde.

English

We investigate the potential of learning visual representations using synthetic images generated by text-to-image models. This is a natural question in the light of the excellent performance of such models in generating high-quality images. We consider specifically the Stable Diffusion, one of the leading open source text-to-image models. We show that (1) when the generative model is configured with proper classifier-free guidance scale, training self-supervised methods on synthetic images can match or beat the real image counterpart; (2) by treating the multiple images generated from the same text prompt as positives for each other, we develop a multi-positive contrastive learning method, which we call StableRep. With solely synthetic images, the representations learned by StableRep surpass the performance of representations learned by SimCLR and CLIP using the same set of text prompts and corresponding real images, on large scale datasets. When we further add language supervision, StableRep trained with 20M synthetic images achieves better accuracy than CLIP trained with 50M real images.

StableRep: Synthetische Bilder aus Text-zu-Bild-Modellen als effektive visuelle Repräsentationslerner

StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners

Zusammenfassung

Support