ChatPaper.aiChatPaper

AnomalyVFM -- Transformer les modèles de fondation en vision en détecteurs d'anomalies zero-shot

AnomalyVFM -- Transforming Vision Foundation Models into Zero-Shot Anomaly Detectors

April 9, 2026
Auteurs: Matic Fučka, Vitjan Zavrtanik, Danijel Skočaj
cs.AI

Résumé

La détection d'anomalies zero-shot vise à détecter et localiser les régions anormales dans une image sans avoir accès à aucune image d'entraînement du domaine cible. Si les approches récentes exploitent des modèles vision-langage (VLM), comme CLIP, pour transférer des connaissances de concepts de haut niveau, les méthodes basées uniquement sur des modèles de fondation visuels (VFM), tels que DINOv2, accusent un retard en termes de performance. Nous soutenons que cet écart provient de deux problèmes pratiques : (i) la diversité limitée des ensembles de données d'anomalies auxiliaires existants et (ii) des stratégies d'adaptation des VFM trop superficielles. Pour relever ces deux défis, nous proposons AnomalyVFM, un cadre général et efficace qui transforme tout VFM pré-entraîné en un détecteur d'anomalies zero-shot performant. Notre approche combine un schéma robuste de génération en trois étapes d'un ensemble de données synthétiques avec un mécanisme d'adaptation efficace en paramètres, utilisant des modules d'adaptation de caractéristiques à faible rang et une perte pixel pondérée par la confiance. Ensemble, ces composants permettent aux VFM modernes de surpasser substantiellement les méthodes actuelles de l'état de l'art. Plus précisément, avec RADIO comme architecture de base, AnomalyVFM atteint un AUROC moyen au niveau image de 94,1 % sur 9 ensembles de données variés, dépassant les méthodes précédentes de 3,3 points de pourcentage significatifs. Page du projet : https://maticfuc.github.io/anomaly_vfm/
English
Zero-shot anomaly detection aims to detect and localise abnormal regions in the image without access to any in-domain training images. While recent approaches leverage vision-language models (VLMs), such as CLIP, to transfer high-level concept knowledge, methods based on purely vision foundation models (VFMs), like DINOv2, have lagged behind in performance. We argue that this gap stems from two practical issues: (i) limited diversity in existing auxiliary anomaly detection datasets and (ii) overly shallow VFM adaptation strategies. To address both challenges, we propose AnomalyVFM, a general and effective framework that turns any pretrained VFM into a strong zero-shot anomaly detector. Our approach combines a robust three-stage synthetic dataset generation scheme with a parameter-efficient adaptation mechanism, utilising low-rank feature adapters and a confidence-weighted pixel loss. Together, these components enable modern VFMs to substantially outperform current state-of-the-art methods. More specifically, with RADIO as a backbone, AnomalyVFM achieves an average image-level AUROC of 94.1% across 9 diverse datasets, surpassing previous methods by significant 3.3 percentage points. Project Page: https://maticfuc.github.io/anomaly_vfm/
PDF21April 11, 2026