ReCLIP: Refinamiento del Preentrenamiento de Contraste entre Lenguaje e Imagen con Adaptación de Dominio sin Fuente

Resumen

Los modelos de visión-lenguaje de preentrenamiento a gran escala, como CLIP, han demostrado un rendimiento excepcional en clasificación zero-shot, logrando, por ejemplo, un 76.3% de precisión top-1 en ImageNet sin haber visto ningún ejemplo, lo que sugiere beneficios potenciales para muchas tareas que carecen de datos etiquetados. Sin embargo, al aplicar CLIP a un dominio objetivo específico, la presencia de brechas de dominio visual y textual, junto con la desalineación entre modalidades, puede afectar significativamente el rendimiento del modelo. Para abordar estos desafíos, proponemos ReCLIP, el primer método de adaptación de dominio sin datos de origen para modelos de visión-lenguaje, que no requiere datos de origen ni datos etiquetados del objetivo. ReCLIP primero aprende un espacio de proyección para mitigar la desalineación de los embeddings visual-textuales y genera pseudoetiquetas, y luego implementa un autoentrenamiento cruzado entre modalidades con estas pseudoetiquetas, actualizando los codificadores visuales y textuales, refinando las etiquetas y reduciendo las brechas de dominio y desalineaciones de manera iterativa. A través de experimentos exhaustivos, demostramos que ReCLIP reduce la tasa de error promedio de CLIP del 30.17% al 25.06% en 22 benchmarks de clasificación de imágenes.

English

Large-scale Pre-Training Vision-Language Model such as CLIP has demonstrated outstanding performance in zero-shot classification, e.g. achieving 76.3% top-1 accuracy on ImageNet without seeing any example, which leads to potential benefits to many tasks that have no labeled data. However, while applying CLIP to a downstream target domain, the presence of visual and text domain gaps and cross-modality misalignment can greatly impact the model performance. To address such challenges, we propose ReCLIP, the first source-free domain adaptation method for vision-language models, which does not require any source data or target labeled data. ReCLIP first learns a projection space to mitigate the misaligned visual-text embeddings and learns pseudo labels, and then deploys cross-modality self-training with the pseudo labels, to update visual and text encoders, refine labels and reduce domain gaps and misalignments iteratively. With extensive experiments, we demonstrate ReCLIP reduces the average error rate of CLIP from 30.17% to 25.06% on 22 image classification benchmarks.

ReCLIP: Refinamiento del Preentrenamiento de Contraste entre Lenguaje e Imagen con Adaptación de Dominio sin Fuente

ReCLIP: Refine Contrastive Language Image Pre-Training with Source Free Domain Adaptation

Resumen

Support