AnomalyVFM: Transformando Modelos Fundamentales de Visión en Detectores de Anomalías de Cero Disparos
AnomalyVFM -- Transforming Vision Foundation Models into Zero-Shot Anomaly Detectors
April 9, 2026
Autores: Matic Fučka, Vitjan Zavrtanik, Danijel Skočaj
cs.AI
Resumen
La detección de anomalías zero-shot tiene como objetivo detectar y localizar regiones anómalas en la imagen sin acceso a imágenes de entrenamiento del dominio específico. Si bien enfoques recientes aprovechan modelos de visión y lenguaje (VLM), como CLIP, para transferir conocimiento de conceptos de alto nivel, los métodos basados únicamente en modelos fundacionales de visión (VFM), como DINOv2, han quedado rezagados en rendimiento. Sostenemos que esta brecha surge de dos problemas prácticos: (i) la diversidad limitada en los conjuntos de datos auxiliares existentes para detección de anomalías y (ii) estrategias de adaptación de VFM excesivamente superficiales. Para abordar ambos desafíos, proponemos AnomalyVFM, un marco general y efectivo que convierte cualquier VFM preentrenado en un detector de anomalías zero-shot robusto. Nuestro enfoque combina un esquema robusto de generación de datos sintéticos en tres etapas con un mecanismo de adaptación eficiente en parámetros, utilizando adaptadores de características de bajo rango y una pérdida de píxeles ponderada por confianza. En conjunto, estos componentes permiten que los VFM modernos superen sustancialmente a los métodos actuales del estado del arte. Más específicamente, con RADIO como columna vertebral, AnomalyVFM logra un AUROC promedio a nivel de imagen del 94.1% en 9 conjuntos de datos diversos, superando a métodos anteriores por 3.3 puntos porcentuales. Página del proyecto: https://maticfuc.github.io/anomaly_vfm/
English
Zero-shot anomaly detection aims to detect and localise abnormal regions in the image without access to any in-domain training images. While recent approaches leverage vision-language models (VLMs), such as CLIP, to transfer high-level concept knowledge, methods based on purely vision foundation models (VFMs), like DINOv2, have lagged behind in performance. We argue that this gap stems from two practical issues: (i) limited diversity in existing auxiliary anomaly detection datasets and (ii) overly shallow VFM adaptation strategies. To address both challenges, we propose AnomalyVFM, a general and effective framework that turns any pretrained VFM into a strong zero-shot anomaly detector. Our approach combines a robust three-stage synthetic dataset generation scheme with a parameter-efficient adaptation mechanism, utilising low-rank feature adapters and a confidence-weighted pixel loss. Together, these components enable modern VFMs to substantially outperform current state-of-the-art methods. More specifically, with RADIO as a backbone, AnomalyVFM achieves an average image-level AUROC of 94.1% across 9 diverse datasets, surpassing previous methods by significant 3.3 percentage points. Project Page: https://maticfuc.github.io/anomaly_vfm/