Apprendre la vision à partir de modèles rivalise avec l'apprentissage de la vision à partir de données.
Learning Vision from Models Rivals Learning Vision from Data
December 28, 2023
Auteurs: Yonglong Tian, Lijie Fan, Kaifeng Chen, Dina Katabi, Dilip Krishnan, Phillip Isola
cs.AI
Résumé
Nous présentons SynCLR, une nouvelle approche pour l'apprentissage de représentations visuelles exclusivement à partir d'images synthétiques et de légendes synthétiques, sans aucune donnée réelle. Nous synthétisons un vaste ensemble de légendes d'images à l'aide de modèles de langage (LLMs), puis utilisons un modèle prêt à l'emploi de génération d'images à partir de texte pour produire plusieurs images correspondant à chaque légende synthétique. Nous effectuons l'apprentissage de représentations visuelles sur ces images synthétiques via un apprentissage contrastif, en traitant les images partageant la même légende comme des paires positives. Les représentations obtenues se transfèrent efficacement à de nombreuses tâches en aval, rivalisant favorablement avec d'autres méthodes généralistes d'apprentissage de représentations visuelles telles que CLIP et DINO v2 dans les tâches de classification d'images. De plus, dans les tâches de prédiction dense telles que la segmentation sémantique, SynCLR surpasse de manière significative les méthodes auto-supervisées précédentes, par exemple en améliorant les résultats de MAE et iBOT de 6,2 et 4,3 mIoU sur ADE20k pour ViT-B/16.
English
We introduce SynCLR, a novel approach for learning visual representations
exclusively from synthetic images and synthetic captions, without any real
data. We synthesize a large dataset of image captions using LLMs, then use an
off-the-shelf text-to-image model to generate multiple images corresponding to
each synthetic caption. We perform visual representation learning on these
synthetic images via contrastive learning, treating images sharing the same
caption as positive pairs. The resulting representations transfer well to many
downstream tasks, competing favorably with other general-purpose visual
representation learners such as CLIP and DINO v2 in image classification tasks.
Furthermore, in dense prediction tasks such as semantic segmentation, SynCLR
outperforms previous self-supervised methods by a significant margin, e.g.,
improving over MAE and iBOT by 6.2 and 4.3 mIoU on ADE20k for ViT-B/16.