AnomalyVFM — Преобразование базовых моделей компьютерного зрения в детекторы аномалий с нулевым обучением
AnomalyVFM -- Transforming Vision Foundation Models into Zero-Shot Anomaly Detectors
April 9, 2026
Авторы: Matic Fučka, Vitjan Zavrtanik, Danijel Skočaj
cs.AI
Аннотация
Задача обнаружения аномалий без обучения (zero-shot) направлена на выявление и локализацию аномальных областей на изображении без доступа к каким-либо обучающим изображениям из целевой предметной области. В то время как современные подходы используют модели "визуальный язык" (VLM), такие как CLIP, для передачи знаний о высокоуровневых концепциях, методы, основанные исключительно на базовых визуальных моделях (VFM), такие как DINOv2, отстают по производительности. Мы полагаем, что этот разрыв обусловлен двумя практическими проблемами: (i) ограниченным разнообразием существующих вспомогательных наборов данных для обнаружения аномалий и (ii) чрезмерно упрощенными стратегиями адаптации VFM. Для решения обеих проблем мы предлагаем AnomalyVFM — универсальную и эффективную структуру, которая превращает любую предварительно обученную VFM в мощный детектор аномалий без обучения. Наш подход сочетает надежную трехэтапную схему генерации синтетического набора данных с механизмом адаптации, эффективным по параметрам, используя низкоранговые адаптеры признаков и поэксельную функцию потерь с весами уверенности. В совокупности эти компоненты позволяют современным VFM значительно превзойти текущие передовые методы. В частности, при использовании RADIO в качестве базовой архитектуры AnomalyVFM достигает среднего значения AUROC на уровне изображения в 94,1% на 9 разнообразных наборах данных, превосходя предыдущие методы на значительные 3,3 процентных пункта. Страница проекта: https://maticfuc.github.io/anomaly_vfm/
English
Zero-shot anomaly detection aims to detect and localise abnormal regions in the image without access to any in-domain training images. While recent approaches leverage vision-language models (VLMs), such as CLIP, to transfer high-level concept knowledge, methods based on purely vision foundation models (VFMs), like DINOv2, have lagged behind in performance. We argue that this gap stems from two practical issues: (i) limited diversity in existing auxiliary anomaly detection datasets and (ii) overly shallow VFM adaptation strategies. To address both challenges, we propose AnomalyVFM, a general and effective framework that turns any pretrained VFM into a strong zero-shot anomaly detector. Our approach combines a robust three-stage synthetic dataset generation scheme with a parameter-efficient adaptation mechanism, utilising low-rank feature adapters and a confidence-weighted pixel loss. Together, these components enable modern VFMs to substantially outperform current state-of-the-art methods. More specifically, with RADIO as a backbone, AnomalyVFM achieves an average image-level AUROC of 94.1% across 9 diverse datasets, surpassing previous methods by significant 3.3 percentage points. Project Page: https://maticfuc.github.io/anomaly_vfm/