ChatPaper.aiChatPaper

AnomalyVFM -- Het transformeren van vision foundation models in zero-shot anomaliedetectoren

AnomalyVFM -- Transforming Vision Foundation Models into Zero-Shot Anomaly Detectors

April 9, 2026
Auteurs: Matic Fučka, Vitjan Zavrtanik, Danijel Skočaj
cs.AI

Samenvatting

Zero-shot anomaliedetectie heeft als doel abnormale regio's in een afbeelding te detecteren en lokaliseren zonder toegang tot in-domein trainingsafbeeldingen. Hoewel recente benaderingen vision-language-modellen (VLM's) zoals CLIP inzetten om hoogwaardige conceptkennis over te dragen, blijven methoden gebaseerd op puur vision foundation-modellen (VFM's) zoals DINOv2 achter in prestaties. Wij stellen dat deze kloof voortkomt uit twee praktische problemen: (i) beperkte diversiteit in bestaande hulpdatalabels voor anomaliedetectie en (ii) te oppervlakkige VFM-aanpassingsstrategieën. Om beide uitdagingen aan te pakken, presenteren we AnomalyVFM, een algemeen en effectief raamwerk dat elk voorgetraind VFM omzet in een sterke zero-shot anomaliedetector. Onze aanpak combineert een robuust drie-fasen synthetisch datageneratieschema met een parameter-efficiënt aanpassingsmechanisme, gebruikmakend van low-rank feature-adapters en een vertrouwensgewogen pixelverlies. Samen stellen deze componenten moderne VFM's in staat om huidige state-of-the-art methoden aanzienlijk te overtreffen. Concreet behaalt AnomalyVFM met RADIO als backbone een gemiddeld image-level AUROC van 94,1% over 9 diverse datasets, wat een significante verbetering van 3,3 procentpunten ten opzichte van eerdere methoden vertegenwoordigt. Projectpagina: https://maticfuc.github.io/anomaly_vfm/
English
Zero-shot anomaly detection aims to detect and localise abnormal regions in the image without access to any in-domain training images. While recent approaches leverage vision-language models (VLMs), such as CLIP, to transfer high-level concept knowledge, methods based on purely vision foundation models (VFMs), like DINOv2, have lagged behind in performance. We argue that this gap stems from two practical issues: (i) limited diversity in existing auxiliary anomaly detection datasets and (ii) overly shallow VFM adaptation strategies. To address both challenges, we propose AnomalyVFM, a general and effective framework that turns any pretrained VFM into a strong zero-shot anomaly detector. Our approach combines a robust three-stage synthetic dataset generation scheme with a parameter-efficient adaptation mechanism, utilising low-rank feature adapters and a confidence-weighted pixel loss. Together, these components enable modern VFMs to substantially outperform current state-of-the-art methods. More specifically, with RADIO as a backbone, AnomalyVFM achieves an average image-level AUROC of 94.1% across 9 diverse datasets, surpassing previous methods by significant 3.3 percentage points. Project Page: https://maticfuc.github.io/anomaly_vfm/
PDF42April 13, 2026