AnomalyVFM -- Trasformare i Modelli di Fondamento Visivo in Rilevatori di Anomalie Zero-Shot

Abstract

L'anomaly detection zero-shot mira a rilevare e localizzare le regioni anomale nell'immagine senza avere accesso ad alcuna immagine di training del dominio di riferimento. Mentre gli approcci recenti sfruttano modelli vision-language (VLM), come CLIP, per trasferire conoscenze di concetti di alto livello, i metodi basati esclusivamente su modelli foundation visivi (VFM), come DINOv2, sono rimasti indietro in termini di prestazioni. Sosteniamo che questo divario derivi da due problemi pratici: (i) la limitata diversità nei dataset ausiliari di anomaly detection esistenti e (ii) strategie di adattamento dei VFM eccessivamente superficiali. Per affrontare entrambe le sfide, proponiamo AnomalyVFM, un framework generale ed efficace che trasforma qualsiasi VFM preaddestrato in un forte rilevatore di anomalie zero-shot. Il nostro approccio combina uno schema robusto di generazione di dataset sintetici in tre fasi con un meccanismo di adattamento efficiente in parametri, utilizzando adattatori di feature low-rank e una loss pixel pesata in base alla confidenza. Insieme, questi componenti consentono ai VFM moderni di superare sostanzialmente i metodi state-of-the-art attuali. Nello specifico, utilizzando RADIO come backbone, AnomalyVFM raggiunge una AUROC a livello di immagine media del 94,1% su 9 dataset diversificati, superando i metodi precedenti di significativi 3,3 punti percentuali. Pagina del progetto: https://maticfuc.github.io/anomaly_vfm/

English

Zero-shot anomaly detection aims to detect and localise abnormal regions in the image without access to any in-domain training images. While recent approaches leverage vision-language models (VLMs), such as CLIP, to transfer high-level concept knowledge, methods based on purely vision foundation models (VFMs), like DINOv2, have lagged behind in performance. We argue that this gap stems from two practical issues: (i) limited diversity in existing auxiliary anomaly detection datasets and (ii) overly shallow VFM adaptation strategies. To address both challenges, we propose AnomalyVFM, a general and effective framework that turns any pretrained VFM into a strong zero-shot anomaly detector. Our approach combines a robust three-stage synthetic dataset generation scheme with a parameter-efficient adaptation mechanism, utilising low-rank feature adapters and a confidence-weighted pixel loss. Together, these components enable modern VFMs to substantially outperform current state-of-the-art methods. More specifically, with RADIO as a backbone, AnomalyVFM achieves an average image-level AUROC of 94.1% across 9 diverse datasets, surpassing previous methods by significant 3.3 percentage points. Project Page: https://maticfuc.github.io/anomaly_vfm/

AnomalyVFM -- Trasformare i Modelli di Fondamento Visivo in Rilevatori di Anomalie Zero-Shot

AnomalyVFM -- Transforming Vision Foundation Models into Zero-Shot Anomaly Detectors

Abstract

Support