ReCLIP: Усовершенствование контрастного предобучения языковых и визуальных моделей с адаптацией к домену без исходных данных
ReCLIP: Refine Contrastive Language Image Pre-Training with Source Free Domain Adaptation
August 4, 2023
Авторы: Hu. Xuefeng, Zhang. Ke, Xia. Lu, Chen. Albert, Luo. Jiajia, Sun. Yuyin, Wang. Ken, Qiao. Nan, Zeng. Xiao, Sun. Min, Kuo. Cheng-Hao, Nevatia. Ram
cs.AI
Аннотация
Крупномасштабные предварительно обученные модели для обработки изображений и текста, такие как CLIP, продемонстрировали выдающуюся производительность в задачах классификации без обучения на примерах (zero-shot), например, достигнув точности 76,3% на первом месте (top-1) на наборе данных ImageNet без использования каких-либо примеров. Это открывает потенциальные преимущества для многих задач, где отсутствуют размеченные данные. Однако при применении CLIP к целевой предметной области наличие разрывов между визуальными и текстовыми доменами, а также несоответствие между модальностями может значительно повлиять на производительность модели. Для решения этих проблем мы предлагаем ReCLIP — первый метод адаптации к домену без использования исходных данных для моделей обработки изображений и текста, который не требует ни исходных данных, ни размеченных целевых данных. ReCLIP сначала изучает проекционное пространство для смягчения несоответствия между визуальными и текстовыми эмбеддингами и генерирует псевдоразметку, а затем применяет кросс-модальное самообучение с использованием псевдоразметки для обновления визуальных и текстовых кодировщиков, уточнения разметки и последовательного уменьшения разрывов между доменами и несоответствий. В ходе обширных экспериментов мы показываем, что ReCLIP снижает среднюю частоту ошибок CLIP с 30,17% до 25,06% на 22 бенчмарках классификации изображений.
English
Large-scale Pre-Training Vision-Language Model such as CLIP has demonstrated
outstanding performance in zero-shot classification, e.g. achieving 76.3% top-1
accuracy on ImageNet without seeing any example, which leads to potential
benefits to many tasks that have no labeled data. However, while applying CLIP
to a downstream target domain, the presence of visual and text domain gaps and
cross-modality misalignment can greatly impact the model performance. To
address such challenges, we propose ReCLIP, the first source-free domain
adaptation method for vision-language models, which does not require any source
data or target labeled data. ReCLIP first learns a projection space to mitigate
the misaligned visual-text embeddings and learns pseudo labels, and then
deploys cross-modality self-training with the pseudo labels, to update visual
and text encoders, refine labels and reduce domain gaps and misalignments
iteratively. With extensive experiments, we demonstrate ReCLIP reduces the
average error rate of CLIP from 30.17% to 25.06% on 22 image classification
benchmarks.