ChatPaper.aiChatPaper

Leren van visie via modellen evenaart leren van visie via data.

Learning Vision from Models Rivals Learning Vision from Data

December 28, 2023
Auteurs: Yonglong Tian, Lijie Fan, Kaifeng Chen, Dina Katabi, Dilip Krishnan, Phillip Isola
cs.AI

Samenvatting

We introduceren SynCLR, een nieuwe aanpak voor het leren van visuele representaties uitsluitend vanuit synthetische afbeeldingen en synthetische bijschriften, zonder enige echte data. We genereren een grote dataset van beeldbijschriften met behulp van LLM's (Large Language Models) en gebruiken vervolgens een standaard tekst-naar-beeldmodel om meerdere afbeeldingen te genereren die corresponderen met elk synthetisch bijschrift. We voeren visuele representatieleer uit op deze synthetische afbeeldingen via contrastief leren, waarbij we afbeeldingen die hetzelfde bijschrift delen behandelen als positieve paren. De resulterende representaties transfereren goed naar veel downstream taken en concurreren gunstig met andere algemene visuele representatieleermethoden zoals CLIP en DINO v2 in beeldclassificatietaken. Bovendien presteert SynCLR in dense prediction taken zoals semantische segmentatie aanzienlijk beter dan eerdere zelfgesuperviseerde methoden, bijvoorbeeld door 6,2 en 4,3 mIoU te verbeteren ten opzichte van MAE en iBOT op ADE20k voor ViT-B/16.
English
We introduce SynCLR, a novel approach for learning visual representations exclusively from synthetic images and synthetic captions, without any real data. We synthesize a large dataset of image captions using LLMs, then use an off-the-shelf text-to-image model to generate multiple images corresponding to each synthetic caption. We perform visual representation learning on these synthetic images via contrastive learning, treating images sharing the same caption as positive pairs. The resulting representations transfer well to many downstream tasks, competing favorably with other general-purpose visual representation learners such as CLIP and DINO v2 in image classification tasks. Furthermore, in dense prediction tasks such as semantic segmentation, SynCLR outperforms previous self-supervised methods by a significant margin, e.g., improving over MAE and iBOT by 6.2 and 4.3 mIoU on ADE20k for ViT-B/16.
PDF162February 9, 2026