ReCLIP: Verfeinerung des kontrastiven Sprach-Bild-Vorabtrainings mit quellenfreier Domänenanpassung

papers.abstract

Große vortrainierte Vision-Sprach-Modelle wie CLIP haben herausragende Leistungen in der Zero-Shot-Klassifikation gezeigt, beispielsweise eine Top-1-Genauigkeit von 76,3 % auf ImageNet, ohne zuvor Beispiele gesehen zu haben. Dies birgt potenzielle Vorteile für viele Aufgaben, für die keine annotierten Daten vorhanden sind. Allerdings kann die Anwendung von CLIP auf eine nachgelagerte Zieldomäne durch visuelle und textuelle Domänenlücken sowie durch Fehlausrichtungen zwischen den Modalitäten die Modellleistung erheblich beeinträchtigen. Um diese Herausforderungen zu bewältigen, schlagen wir ReCLIP vor, die erste quellfreie Domänenanpassungsmethode für Vision-Sprach-Modelle, die weder Quelldaten noch annotierte Zieldaten benötigt. ReCLIP lernt zunächst einen Projektionsraum, um die fehlausgerichteten visuell-textuellen Einbettungen zu mildern und Pseudolabels zu erzeugen. Anschließend wird ein Cross-Modality-Selbsttraining mit diesen Pseudolabels eingesetzt, um die visuellen und textuellen Encoder zu aktualisieren, die Labels zu verfeinern und Domänenlücken sowie Fehlausrichtungen iterativ zu reduzieren. Umfangreiche Experimente zeigen, dass ReCLIP die durchschnittliche Fehlerrate von CLIP von 30,17 % auf 25,06 % bei 22 Bildklassifizierungs-Benchmarks reduziert.

English

Large-scale Pre-Training Vision-Language Model such as CLIP has demonstrated outstanding performance in zero-shot classification, e.g. achieving 76.3% top-1 accuracy on ImageNet without seeing any example, which leads to potential benefits to many tasks that have no labeled data. However, while applying CLIP to a downstream target domain, the presence of visual and text domain gaps and cross-modality misalignment can greatly impact the model performance. To address such challenges, we propose ReCLIP, the first source-free domain adaptation method for vision-language models, which does not require any source data or target labeled data. ReCLIP first learns a projection space to mitigate the misaligned visual-text embeddings and learns pseudo labels, and then deploys cross-modality self-training with the pseudo labels, to update visual and text encoders, refine labels and reduce domain gaps and misalignments iteratively. With extensive experiments, we demonstrate ReCLIP reduces the average error rate of CLIP from 30.17% to 25.06% on 22 image classification benchmarks.

ReCLIP: Verfeinerung des kontrastiven Sprach-Bild-Vorabtrainings mit quellenfreier Domänenanpassung

ReCLIP: Refine Contrastive Language Image Pre-Training with Source Free Domain Adaptation

papers.abstract

Support