AnomalyVFM -- 비전 파운데이션 모델을 제로샷 이상 탐지기로 변환하기
AnomalyVFM -- Transforming Vision Foundation Models into Zero-Shot Anomaly Detectors
April 9, 2026
저자: Matic Fučka, Vitjan Zavrtanik, Danijel Skočaj
cs.AI
초록
제로샷 이상 감지는 해당 도메인의 학습 이미지에 접근하지 않고 이미지 내 이상 영역을 감지하고 위치를 파악하는 것을 목표로 합니다. 최근 연구에서는 CLIP과 같은 시각-언어 모델(VLM)을 활용하여 고수준 개념 지식을 전이시키는 접근법이 등장했지만, DINOv2와 같은 순수 시각 기초 모델(VFM) 기반 방법들은 성능 면에서 뒤처져 왔습니다. 우리는 이러한 격차가 두 가지 실제적 문제, 즉 (i) 기존 보조 이상 감지 데이터셋의 제한된 다양성과 (ii) 지나치게 피상적인 VFM 적응 전략에서 비롯된다고 주장합니다. 이 두 가지 과제를 해결하기 위해 우리는 사전 학습된 어떤 VFM이든 강력한 제로샷 이상 탐지기로 변환하는 일반적이고 효과적인 프레임워크인 AnomalyVFM을 제안합니다. 우리의 접근법은 강력한 3단계 합성 데이터셋 생성 방식과 매개변수 효율적 적응 메커니즘(저순위 특징 어댑터와 신뢰도 가중 픽셀 손실 활용)을 결합합니다. 이러한 구성 요소들이 함께 작동하여 현대적인 VFM이 현재 최첨단 방법들을 크게 능가할 수 있도록 합니다. 구체적으로, RADIO를 백본으로 사용할 때 AnomalyVFM은 9개의 다양한 데이터셋에서 평균 이미지 수준 AUROC 94.1%를 달성하여 기존 방법보다 무려 3.3% 포인트나 높은 성능을 보여줍니다. 프로젝트 페이지: https://maticfuc.github.io/anomaly_vfm/
English
Zero-shot anomaly detection aims to detect and localise abnormal regions in the image without access to any in-domain training images. While recent approaches leverage vision-language models (VLMs), such as CLIP, to transfer high-level concept knowledge, methods based on purely vision foundation models (VFMs), like DINOv2, have lagged behind in performance. We argue that this gap stems from two practical issues: (i) limited diversity in existing auxiliary anomaly detection datasets and (ii) overly shallow VFM adaptation strategies. To address both challenges, we propose AnomalyVFM, a general and effective framework that turns any pretrained VFM into a strong zero-shot anomaly detector. Our approach combines a robust three-stage synthetic dataset generation scheme with a parameter-efficient adaptation mechanism, utilising low-rank feature adapters and a confidence-weighted pixel loss. Together, these components enable modern VFMs to substantially outperform current state-of-the-art methods. More specifically, with RADIO as a backbone, AnomalyVFM achieves an average image-level AUROC of 94.1% across 9 diverse datasets, surpassing previous methods by significant 3.3 percentage points. Project Page: https://maticfuc.github.io/anomaly_vfm/