ReCLIP: ソースフリードメイン適応によるコントラスティブ言語画像事前学習の改良
ReCLIP: Refine Contrastive Language Image Pre-Training with Source Free Domain Adaptation
August 4, 2023
著者: Hu. Xuefeng, Zhang. Ke, Xia. Lu, Chen. Albert, Luo. Jiajia, Sun. Yuyin, Wang. Ken, Qiao. Nan, Zeng. Xiao, Sun. Min, Kuo. Cheng-Hao, Nevatia. Ram
cs.AI
要旨
大規模な事前学習視覚言語モデルであるCLIPは、ゼロショット分類において優れた性能を示しており、例えばImageNetで例を見ることなく76.3%のトップ1精度を達成し、ラベル付きデータがない多くのタスクに潜在的な利益をもたらす可能性があります。しかし、CLIPを下流のターゲットドメインに適用する際、視覚とテキストのドメインギャップおよびクロスモダリティのミスアライメントがモデルの性能に大きな影響を与えることがあります。これらの課題に対処するため、我々はReCLIPを提案します。ReCLIPは、ソースデータやターゲットのラベル付きデータを必要としない、視覚言語モデルのための最初のソースフリードメイン適応手法です。ReCLIPはまず、ミスアライメントした視覚-テキスト埋め込みを緩和し、擬似ラベルを学習するための射影空間を学習します。その後、擬似ラベルを用いたクロスモダリティ自己学習を展開し、視覚エンコーダとテキストエンコーダを更新し、ラベルを洗練し、ドメインギャップとミスアライメントを反復的に削減します。広範な実験を通じて、ReCLIPが22の画像分類ベンチマークにおいて、CLIPの平均エラーレートを30.17%から25.06%に削減することを実証しました。
English
Large-scale Pre-Training Vision-Language Model such as CLIP has demonstrated
outstanding performance in zero-shot classification, e.g. achieving 76.3% top-1
accuracy on ImageNet without seeing any example, which leads to potential
benefits to many tasks that have no labeled data. However, while applying CLIP
to a downstream target domain, the presence of visual and text domain gaps and
cross-modality misalignment can greatly impact the model performance. To
address such challenges, we propose ReCLIP, the first source-free domain
adaptation method for vision-language models, which does not require any source
data or target labeled data. ReCLIP first learns a projection space to mitigate
the misaligned visual-text embeddings and learns pseudo labels, and then
deploys cross-modality self-training with the pseudo labels, to update visual
and text encoders, refine labels and reduce domain gaps and misalignments
iteratively. With extensive experiments, we demonstrate ReCLIP reduces the
average error rate of CLIP from 30.17% to 25.06% on 22 image classification
benchmarks.