ChatPaper.aiChatPaper

AdaptCLIP: Adaptando o CLIP para Detecção Universal de Anomalias Visuais

AdaptCLIP: Adapting CLIP for Universal Visual Anomaly Detection

May 15, 2025
Autores: Bin-Bin Gao, Yue Zhu, Jiangtao Yan, Yuezhi Cai, Weixi Zhang, Meng Wang, Jun Liu, Yong Liu, Lei Wang, Chengjie Wang
cs.AI

Resumo

A detecção universal de anomalias visuais visa identificar anomalias em domínios visuais novos ou não vistos sem a necessidade de ajuste fino adicional, o que é crucial em cenários abertos. Estudos recentes demonstraram que modelos pré-treinados de visão e linguagem, como o CLIP, exibem forte generalização com apenas zero ou algumas imagens normais. No entanto, os métodos existentes enfrentam dificuldades ao projetar modelos de prompt, interações complexas entre tokens ou exigem ajuste fino adicional, resultando em flexibilidade limitada. Neste trabalho, apresentamos um método simples, porém eficaz, chamado AdaptCLIP, baseado em dois insights principais. Primeiro, as representações visuais e textuais adaptativas devem ser aprendidas alternadamente, e não conjuntamente. Segundo, a aprendizagem comparativa entre a consulta e o prompt de imagem normal deve incorporar tanto características contextuais quanto características residuais alinhadas, em vez de depender exclusivamente de características residuais. O AdaptCLIP trata os modelos CLIP como um serviço fundamental, adicionando apenas três adaptadores simples: adaptador visual, adaptador textual e adaptador de prompt-consulta, em suas entradas ou saídas. O AdaptCLIP suporta generalização zero-shot/few-shot entre domínios e possui uma abordagem livre de treinamento em domínios de destino uma vez treinado em um conjunto de dados base. O AdaptCLIP alcança desempenho de ponta em 12 benchmarks de detecção de anomalias dos domínios industrial e médico, superando significativamente os métodos competitivos existentes. Disponibilizaremos o código e o modelo do AdaptCLIP em https://github.com/gaobb/AdaptCLIP.
English
Universal visual anomaly detection aims to identify anomalies from novel or unseen vision domains without additional fine-tuning, which is critical in open scenarios. Recent studies have demonstrated that pre-trained vision-language models like CLIP exhibit strong generalization with just zero or a few normal images. However, existing methods struggle with designing prompt templates, complex token interactions, or requiring additional fine-tuning, resulting in limited flexibility. In this work, we present a simple yet effective method called AdaptCLIP based on two key insights. First, adaptive visual and textual representations should be learned alternately rather than jointly. Second, comparative learning between query and normal image prompt should incorporate both contextual and aligned residual features, rather than relying solely on residual features. AdaptCLIP treats CLIP models as a foundational service, adding only three simple adapters, visual adapter, textual adapter, and prompt-query adapter, at its input or output ends. AdaptCLIP supports zero-/few-shot generalization across domains and possesses a training-free manner on target domains once trained on a base dataset. AdaptCLIP achieves state-of-the-art performance on 12 anomaly detection benchmarks from industrial and medical domains, significantly outperforming existing competitive methods. We will make the code and model of AdaptCLIP available at https://github.com/gaobb/AdaptCLIP.
PDF64May 16, 2025