Обучение зрения на основе моделей конкурирует с обучением зрения на основе данных.
Learning Vision from Models Rivals Learning Vision from Data
December 28, 2023
Авторы: Yonglong Tian, Lijie Fan, Kaifeng Chen, Dina Katabi, Dilip Krishnan, Phillip Isola
cs.AI
Аннотация
Мы представляем SynCLR — новый подход для обучения визуальных представлений исключительно на основе синтетических изображений и синтетических описаний, без использования реальных данных. Мы синтезируем большой набор данных текстовых описаний изображений с использованием языковых моделей (LLM), после чего применяем готовую модель для генерации изображений по тексту, чтобы создать несколько изображений для каждого синтетического описания. Обучение визуальных представлений на этих синтетических изображениях осуществляется с помощью контрастного обучения, где изображения, соответствующие одному и тому же описанию, рассматриваются как позитивные пары. Полученные представления хорошо переносятся на множество задач, конкурируя с другими универсальными методами обучения визуальных представлений, такими как CLIP и DINO v2, в задачах классификации изображений. Более того, в задачах плотного предсказания, таких как семантическая сегментация, SynCLR значительно превосходит предыдущие методы самообучения, например, улучшая показатели на 6.2 и 4.3 mIoU на наборе данных ADE20k для модели ViT-B/16 по сравнению с MAE и iBOT.
English
We introduce SynCLR, a novel approach for learning visual representations
exclusively from synthetic images and synthetic captions, without any real
data. We synthesize a large dataset of image captions using LLMs, then use an
off-the-shelf text-to-image model to generate multiple images corresponding to
each synthetic caption. We perform visual representation learning on these
synthetic images via contrastive learning, treating images sharing the same
caption as positive pairs. The resulting representations transfer well to many
downstream tasks, competing favorably with other general-purpose visual
representation learners such as CLIP and DINO v2 in image classification tasks.
Furthermore, in dense prediction tasks such as semantic segmentation, SynCLR
outperforms previous self-supervised methods by a significant margin, e.g.,
improving over MAE and iBOT by 6.2 and 4.3 mIoU on ADE20k for ViT-B/16.