ChatPaper.aiChatPaper

AdaptCLIP: Adattamento di CLIP per il Rilevamento Universale di Anomalie Visive

AdaptCLIP: Adapting CLIP for Universal Visual Anomaly Detection

May 15, 2025
Autori: Bin-Bin Gao, Yue Zhu, Jiangtao Yan, Yuezhi Cai, Weixi Zhang, Meng Wang, Jun Liu, Yong Liu, Lei Wang, Chengjie Wang
cs.AI

Abstract

Il rilevamento universale di anomalie visive mira a identificare anomalie da domini visivi nuovi o non visti senza ulteriori aggiustamenti, un aspetto cruciale in scenari aperti. Studi recenti hanno dimostrato che modelli pre-addestrati di visione e linguaggio come CLIP mostrano una forte generalizzazione con solo zero o poche immagini normali. Tuttavia, i metodi esistenti faticano nella progettazione di modelli di prompt, nelle complesse interazioni tra token o richiedono ulteriori aggiustamenti, risultando in una flessibilità limitata. In questo lavoro, presentiamo un metodo semplice ma efficace chiamato AdaptCLIP basato su due intuizioni chiave. In primo luogo, le rappresentazioni visive e testuali adattive dovrebbero essere apprese alternativamente piuttosto che congiuntamente. In secondo luogo, l'apprendimento comparativo tra il prompt della query e l'immagine normale dovrebbe incorporare sia le caratteristiche contestuali che quelle residue allineate, piuttosto che affidarsi esclusivamente alle caratteristiche residue. AdaptCLIP tratta i modelli CLIP come un servizio di base, aggiungendo solo tre semplici adattatori: un adattatore visivo, un adattatore testuale e un adattatore prompt-query, ai suoi ingressi o uscite. AdaptCLIP supporta la generalizzazione zero-/few-shot tra domini e possiede una modalità senza addestramento su domini target una volta addestrato su un dataset di base. AdaptCLIP raggiunge prestazioni all'avanguardia su 12 benchmark di rilevamento di anomalie provenienti da domini industriali e medici, superando significativamente i metodi competitivi esistenti. Renderemo disponibili il codice e il modello di AdaptCLIP all'indirizzo https://github.com/gaobb/AdaptCLIP.
English
Universal visual anomaly detection aims to identify anomalies from novel or unseen vision domains without additional fine-tuning, which is critical in open scenarios. Recent studies have demonstrated that pre-trained vision-language models like CLIP exhibit strong generalization with just zero or a few normal images. However, existing methods struggle with designing prompt templates, complex token interactions, or requiring additional fine-tuning, resulting in limited flexibility. In this work, we present a simple yet effective method called AdaptCLIP based on two key insights. First, adaptive visual and textual representations should be learned alternately rather than jointly. Second, comparative learning between query and normal image prompt should incorporate both contextual and aligned residual features, rather than relying solely on residual features. AdaptCLIP treats CLIP models as a foundational service, adding only three simple adapters, visual adapter, textual adapter, and prompt-query adapter, at its input or output ends. AdaptCLIP supports zero-/few-shot generalization across domains and possesses a training-free manner on target domains once trained on a base dataset. AdaptCLIP achieves state-of-the-art performance on 12 anomaly detection benchmarks from industrial and medical domains, significantly outperforming existing competitive methods. We will make the code and model of AdaptCLIP available at https://github.com/gaobb/AdaptCLIP.
PDF64May 16, 2025