ChatPaper.aiChatPaper

AnomalyVFM – Die Umwandlung von visuellen Basismodellen in Zero-Shot-Anomalie-Erkenner

AnomalyVFM -- Transforming Vision Foundation Models into Zero-Shot Anomaly Detectors

April 9, 2026
Autoren: Matic Fučka, Vitjan Zavrtanik, Danijel Skočaj
cs.AI

Zusammenfassung

Zero-Shot-Anomalieerkennung zielt darauf ab, abnormale Bereiche in Bildern zu erkennen und zu lokalisieren, ohne auf domänenspezifische Trainingsbilder zugreifen zu müssen. Während neuere Ansätze Vision-Language-Modelle (VLMs) wie CLIP nutzen, um hochleveliges Konzeptwissen zu transferieren, hinken Methoden, die auf reinen Vision-Foundation-Modellen (VFMs) wie DINOv2 basieren, in der Leistung hinterher. Wir argumentieren, dass diese Lücke auf zwei praktische Probleme zurückzuführen ist: (i) eine begrenzte Vielfalt in bestehenden Hilfsdatensätzen für die Anomalieerkennung und (ii) zu oberflächliche VFM-Adaptierungsstrategien. Um beide Herausforderungen zu adressieren, schlagen wir AnomalyVFM vor, einen allgemeinen und effektiven Rahmen, der jedes vortrainierte VFM in einen leistungsstarken Zero-Shot-Anomaliedetektor verwandelt. Unser Ansatz kombiniert ein robustes dreistufiges Schema zur Synthese von Datensätzen mit einem parameter-effizienten Adaptierungsmechanismus, der Low-Rank-Feature-Adapter und einen konfidenzgewichteten Pixelverlust nutzt. Gemeinsam ermöglichen diese Komponenten modernen VFMs, aktuelle state-of-the-art Methoden erheblich zu übertreffen. Konkret erzielt AnomalyVFM mit RADIO als Backbone einen durchschnittlichen bildbasierten AUROC-Wert von 94,1% über 9 verschiedene Datensätze hinweg und übertrifft damit vorherige Methoden um signifikante 3,3 Prozentpunkte. Projektseite: https://maticfuc.github.io/anomaly_vfm/
English
Zero-shot anomaly detection aims to detect and localise abnormal regions in the image without access to any in-domain training images. While recent approaches leverage vision-language models (VLMs), such as CLIP, to transfer high-level concept knowledge, methods based on purely vision foundation models (VFMs), like DINOv2, have lagged behind in performance. We argue that this gap stems from two practical issues: (i) limited diversity in existing auxiliary anomaly detection datasets and (ii) overly shallow VFM adaptation strategies. To address both challenges, we propose AnomalyVFM, a general and effective framework that turns any pretrained VFM into a strong zero-shot anomaly detector. Our approach combines a robust three-stage synthetic dataset generation scheme with a parameter-efficient adaptation mechanism, utilising low-rank feature adapters and a confidence-weighted pixel loss. Together, these components enable modern VFMs to substantially outperform current state-of-the-art methods. More specifically, with RADIO as a backbone, AnomalyVFM achieves an average image-level AUROC of 94.1% across 9 diverse datasets, surpassing previous methods by significant 3.3 percentage points. Project Page: https://maticfuc.github.io/anomaly_vfm/
PDF21April 11, 2026