Das Erlernen von Vision durch Modelle konkurriert mit dem Erlernen von Vision durch Daten.
Learning Vision from Models Rivals Learning Vision from Data
December 28, 2023
Autoren: Yonglong Tian, Lijie Fan, Kaifeng Chen, Dina Katabi, Dilip Krishnan, Phillip Isola
cs.AI
Zusammenfassung
Wir stellen SynCLR vor, einen neuartigen Ansatz zum Lernen visueller Repräsentationen ausschließlich aus synthetischen Bildern und synthetischen Beschreibungen, ohne jegliche reale Daten. Wir generieren einen großen Datensatz von Bildbeschreibungen mithilfe von LLMs (Large Language Models) und verwenden dann ein Standard-Text-zu-Bild-Modell, um mehrere Bilder zu erzeugen, die jeweils einer synthetischen Beschreibung entsprechen. Wir führen das Lernen visueller Repräsentationen auf diesen synthetischen Bildern mittels kontrastiven Lernens durch, wobei Bilder, die dieselbe Beschreibung teilen, als positive Paare behandelt werden. Die resultierenden Repräsentationen übertragen sich gut auf viele nachgelagerte Aufgaben und konkurrieren vorteilhaft mit anderen allgemeinen visuellen Repräsentationslernern wie CLIP und DINO v2 in Bildklassifizierungsaufgaben. Darüber hinaus übertrifft SynCLR in dichten Vorhersageaufgaben wie semantischer Segmentierung bisherige selbstüberwachte Methoden deutlich, z. B. durch eine Verbesserung von 6,2 und 4,3 mIoU gegenüber MAE und iBOT auf ADE20k für ViT-B/16.
English
We introduce SynCLR, a novel approach for learning visual representations
exclusively from synthetic images and synthetic captions, without any real
data. We synthesize a large dataset of image captions using LLMs, then use an
off-the-shelf text-to-image model to generate multiple images corresponding to
each synthetic caption. We perform visual representation learning on these
synthetic images via contrastive learning, treating images sharing the same
caption as positive pairs. The resulting representations transfer well to many
downstream tasks, competing favorably with other general-purpose visual
representation learners such as CLIP and DINO v2 in image classification tasks.
Furthermore, in dense prediction tasks such as semantic segmentation, SynCLR
outperforms previous self-supervised methods by a significant margin, e.g.,
improving over MAE and iBOT by 6.2 and 4.3 mIoU on ADE20k for ViT-B/16.