ReCLIP: Refinamiento del Preentrenamiento de Contraste entre Lenguaje e Imagen con Adaptación de Dominio sin Fuente
ReCLIP: Refine Contrastive Language Image Pre-Training with Source Free Domain Adaptation
August 4, 2023
Autores: Hu. Xuefeng, Zhang. Ke, Xia. Lu, Chen. Albert, Luo. Jiajia, Sun. Yuyin, Wang. Ken, Qiao. Nan, Zeng. Xiao, Sun. Min, Kuo. Cheng-Hao, Nevatia. Ram
cs.AI
Resumen
Los modelos de visión-lenguaje de preentrenamiento a gran escala, como CLIP, han demostrado un rendimiento excepcional en clasificación zero-shot, logrando, por ejemplo, un 76.3% de precisión top-1 en ImageNet sin haber visto ningún ejemplo, lo que sugiere beneficios potenciales para muchas tareas que carecen de datos etiquetados. Sin embargo, al aplicar CLIP a un dominio objetivo específico, la presencia de brechas de dominio visual y textual, junto con la desalineación entre modalidades, puede afectar significativamente el rendimiento del modelo. Para abordar estos desafíos, proponemos ReCLIP, el primer método de adaptación de dominio sin datos de origen para modelos de visión-lenguaje, que no requiere datos de origen ni datos etiquetados del objetivo. ReCLIP primero aprende un espacio de proyección para mitigar la desalineación de los embeddings visual-textuales y genera pseudoetiquetas, y luego implementa un autoentrenamiento cruzado entre modalidades con estas pseudoetiquetas, actualizando los codificadores visuales y textuales, refinando las etiquetas y reduciendo las brechas de dominio y desalineaciones de manera iterativa. A través de experimentos exhaustivos, demostramos que ReCLIP reduce la tasa de error promedio de CLIP del 30.17% al 25.06% en 22 benchmarks de clasificación de imágenes.
English
Large-scale Pre-Training Vision-Language Model such as CLIP has demonstrated
outstanding performance in zero-shot classification, e.g. achieving 76.3% top-1
accuracy on ImageNet without seeing any example, which leads to potential
benefits to many tasks that have no labeled data. However, while applying CLIP
to a downstream target domain, the presence of visual and text domain gaps and
cross-modality misalignment can greatly impact the model performance. To
address such challenges, we propose ReCLIP, the first source-free domain
adaptation method for vision-language models, which does not require any source
data or target labeled data. ReCLIP first learns a projection space to mitigate
the misaligned visual-text embeddings and learns pseudo labels, and then
deploys cross-modality self-training with the pseudo labels, to update visual
and text encoders, refine labels and reduce domain gaps and misalignments
iteratively. With extensive experiments, we demonstrate ReCLIP reduces the
average error rate of CLIP from 30.17% to 25.06% on 22 image classification
benchmarks.