ChatPaper.aiChatPaper

AdaptCLIP: 범용 시각 이상 탐지를 위한 CLIP 적응

AdaptCLIP: Adapting CLIP for Universal Visual Anomaly Detection

May 15, 2025
저자: Bin-Bin Gao, Yue Zhu, Jiangtao Yan, Yuezhi Cai, Weixi Zhang, Meng Wang, Jun Liu, Yong Liu, Lei Wang, Chengjie Wang
cs.AI

초록

범용 시각 이상 탐지(Universal Visual Anomaly Detection)는 추가적인 미세 조정 없이도 새로운 또는 보지 못한 시각 도메인에서 이상을 식별하는 것을 목표로 하며, 이는 개방형 시나리오에서 매우 중요합니다. 최근 연구들은 CLIP과 같은 사전 학습된 시각-언어 모델이 단지 제로샷 또는 소수의 정상 이미지만으로도 강력한 일반화 능력을 보인다는 것을 입증했습니다. 그러나 기존 방법들은 프롬프트 템플릿 설계, 복잡한 토큰 상호작용, 또는 추가적인 미세 조정이 필요하여 유연성이 제한적이었습니다. 본 연구에서는 두 가지 핵심 통찰을 바탕으로 AdaptCLIP이라는 간단하면서도 효과적인 방법을 제안합니다. 첫째, 적응형 시각 및 텍스트 표현은 공동으로가 아니라 번갈아가며 학습되어야 합니다. 둘째, 쿼리와 정상 이미지 프롬프트 간의 비교 학습은 잔차 특징만 의존하는 것이 아니라, 문맥적 및 정렬된 잔차 특징을 모두 포함해야 합니다. AdaptCLIP은 CLIP 모델을 기반 서비스로 취급하며, 입력 또는 출력 단에 단순히 세 개의 어댑터(시각 어댑터, 텍스트 어댑터, 프롬프트-쿼리 어댑터)만 추가합니다. AdaptCLIP은 도메인 간 제로샷/소수샷 일반화를 지원하며, 기본 데이터셋에서 한 번 학습하면 대상 도메인에서 추가 학습 없이도 사용할 수 있습니다. AdaptCLIP은 산업 및 의료 도메인의 12개 이상 탐지 벤치마크에서 최첨단 성능을 달성하며, 기존 경쟁 방법들을 크게 능가합니다. AdaptCLIP의 코드와 모델은 https://github.com/gaobb/AdaptCLIP에서 공개할 예정입니다.
English
Universal visual anomaly detection aims to identify anomalies from novel or unseen vision domains without additional fine-tuning, which is critical in open scenarios. Recent studies have demonstrated that pre-trained vision-language models like CLIP exhibit strong generalization with just zero or a few normal images. However, existing methods struggle with designing prompt templates, complex token interactions, or requiring additional fine-tuning, resulting in limited flexibility. In this work, we present a simple yet effective method called AdaptCLIP based on two key insights. First, adaptive visual and textual representations should be learned alternately rather than jointly. Second, comparative learning between query and normal image prompt should incorporate both contextual and aligned residual features, rather than relying solely on residual features. AdaptCLIP treats CLIP models as a foundational service, adding only three simple adapters, visual adapter, textual adapter, and prompt-query adapter, at its input or output ends. AdaptCLIP supports zero-/few-shot generalization across domains and possesses a training-free manner on target domains once trained on a base dataset. AdaptCLIP achieves state-of-the-art performance on 12 anomaly detection benchmarks from industrial and medical domains, significantly outperforming existing competitive methods. We will make the code and model of AdaptCLIP available at https://github.com/gaobb/AdaptCLIP.

Summary

AI-Generated Summary

PDF54May 16, 2025