MetaUAS: Universele Anomaliesegmentatie met One-Prompt Meta-Leren

Samenvatting

Zero- en few-shot visuele anomaliedetectie is afhankelijk van krachtige vision-language-modellen die onzichtbare anomalieën detecteren met behulp van handmatig ontworpen tekstuele prompts. Visuele representaties zijn echter inherent onafhankelijk van taal. In dit artikel onderzoeken we het potentieel van een puur visueel foundation-model als alternatief voor veelgebruikte vision-language-modellen voor universele visuele anomaliedetectie. We presenteren een nieuw paradigma dat anomaliedetectie verenigt met veranderingsdetectie. Dit paradigma stelt ons in staat om gebruik te maken van grootschalige synthetische beeldparen, met objectniveau en lokale regioveranderingen, afgeleid van bestaande beelddatasets, die onafhankelijk zijn van doel-anomaliedatasets. We stellen een one-prompt Meta-learning framework voor Universal Anomaly Segmentation (MetaUAS) voor, dat wordt getraind op deze synthetische dataset en vervolgens goed generaliseert om nieuwe of onzichtbare visuele anomalieën in de echte wereld te segmenteren. Om geometrische variaties tussen prompt- en query-afbeeldingen te hanteren, stellen we een soft feature alignment-module voor die gepaarde beeldveranderingsperceptie en enkelvoudige beeld semantische segmentatie verbindt. Dit is het eerste werk dat universele anomaliedetectie bereikt met een puur visueel model zonder afhankelijk te zijn van speciale anomaliedetectiedatasets en vooraf getrainde vision-language-modellen. Onze methode segmenteert effectief en efficiënt elke anomalie met slechts één normale beeldprompt en geniet van training-vrij zonder begeleiding van taal. Onze MetaUAS presteert aanzienlijk beter dan eerdere zero-shot, few-shot en zelfs full-shot anomaliedetectiemethoden. De code en vooraf getrainde modellen zijn beschikbaar op https://github.com/gaobb/MetaUAS.

English

Zero- and few-shot visual anomaly segmentation relies on powerful vision-language models that detect unseen anomalies using manually designed textual prompts. However, visual representations are inherently independent of language. In this paper, we explore the potential of a pure visual foundation model as an alternative to widely used vision-language models for universal visual anomaly segmentation. We present a novel paradigm that unifies anomaly segmentation into change segmentation. This paradigm enables us to leverage large-scale synthetic image pairs, featuring object-level and local region changes, derived from existing image datasets, which are independent of target anomaly datasets. We propose a one-prompt Meta-learning framework for Universal Anomaly Segmentation (MetaUAS) that is trained on this synthetic dataset and then generalizes well to segment any novel or unseen visual anomalies in the real world. To handle geometrical variations between prompt and query images, we propose a soft feature alignment module that bridges paired-image change perception and single-image semantic segmentation. This is the first work to achieve universal anomaly segmentation using a pure vision model without relying on special anomaly detection datasets and pre-trained visual-language models. Our method effectively and efficiently segments any anomalies with only one normal image prompt and enjoys training-free without guidance from language. Our MetaUAS significantly outperforms previous zero-shot, few-shot, and even full-shot anomaly segmentation methods. The code and pre-trained models are available at https://github.com/gaobb/MetaUAS.

MetaUAS: Universele Anomaliesegmentatie met One-Prompt Meta-Leren

MetaUAS: Universal Anomaly Segmentation with One-Prompt Meta-Learning

Samenvatting

Summary

Support

Support