ChatPaper.aiChatPaper

AdaptCLIP: Adaptación de CLIP para la Detección Universal de Anomalías Visuales

AdaptCLIP: Adapting CLIP for Universal Visual Anomaly Detection

May 15, 2025
Autores: Bin-Bin Gao, Yue Zhu, Jiangtao Yan, Yuezhi Cai, Weixi Zhang, Meng Wang, Jun Liu, Yong Liu, Lei Wang, Chengjie Wang
cs.AI

Resumen

La detección universal de anomalías visuales tiene como objetivo identificar anomalías en dominios visuales nuevos o no vistos sin necesidad de ajustes adicionales, lo cual es crucial en escenarios abiertos. Estudios recientes han demostrado que modelos preentrenados de visión y lenguaje como CLIP exhiben una fuerte generalización con solo cero o unas pocas imágenes normales. Sin embargo, los métodos existentes enfrentan dificultades al diseñar plantillas de prompts, interacciones complejas entre tokens o requieren ajustes adicionales, lo que resulta en una flexibilidad limitada. En este trabajo, presentamos un método simple pero efectivo llamado AdaptCLIP basado en dos ideas clave. Primero, las representaciones visuales y textuales adaptativas deben aprenderse de manera alternada en lugar de conjunta. Segundo, el aprendizaje comparativo entre la consulta y el prompt de la imagen normal debe incorporar tanto características contextuales como características residuales alineadas, en lugar de depender únicamente de las características residuales. AdaptCLIP trata los modelos CLIP como un servicio fundamental, añadiendo solo tres adaptadores simples: un adaptador visual, un adaptador textual y un adaptador de prompt-consulta, en sus entradas o salidas. AdaptCLIP permite la generalización cero-shot/few-shot entre dominios y posee un enfoque libre de entrenamiento en dominios objetivo una vez entrenado en un conjunto de datos base. AdaptCLIP logra un rendimiento de vanguardia en 12 benchmarks de detección de anomalías de dominios industriales y médicos, superando significativamente a los métodos competitivos existentes. Pondremos a disposición el código y el modelo de AdaptCLIP en https://github.com/gaobb/AdaptCLIP.
English
Universal visual anomaly detection aims to identify anomalies from novel or unseen vision domains without additional fine-tuning, which is critical in open scenarios. Recent studies have demonstrated that pre-trained vision-language models like CLIP exhibit strong generalization with just zero or a few normal images. However, existing methods struggle with designing prompt templates, complex token interactions, or requiring additional fine-tuning, resulting in limited flexibility. In this work, we present a simple yet effective method called AdaptCLIP based on two key insights. First, adaptive visual and textual representations should be learned alternately rather than jointly. Second, comparative learning between query and normal image prompt should incorporate both contextual and aligned residual features, rather than relying solely on residual features. AdaptCLIP treats CLIP models as a foundational service, adding only three simple adapters, visual adapter, textual adapter, and prompt-query adapter, at its input or output ends. AdaptCLIP supports zero-/few-shot generalization across domains and possesses a training-free manner on target domains once trained on a base dataset. AdaptCLIP achieves state-of-the-art performance on 12 anomaly detection benchmarks from industrial and medical domains, significantly outperforming existing competitive methods. We will make the code and model of AdaptCLIP available at https://github.com/gaobb/AdaptCLIP.

Summary

AI-Generated Summary

PDF54May 16, 2025