MetaUAS: Universele Anomaliesegmentatie met One-Prompt Meta-Leren
MetaUAS: Universal Anomaly Segmentation with One-Prompt Meta-Learning
May 14, 2025
Auteurs: Bin-Bin Gao
cs.AI
Samenvatting
Zero- en few-shot visuele anomaliedetectie is afhankelijk van krachtige vision-language-modellen die onzichtbare anomalieën detecteren met behulp van handmatig ontworpen tekstuele prompts. Visuele representaties zijn echter inherent onafhankelijk van taal. In dit artikel onderzoeken we het potentieel van een puur visueel foundation-model als alternatief voor veelgebruikte vision-language-modellen voor universele visuele anomaliedetectie. We presenteren een nieuw paradigma dat anomaliedetectie verenigt met veranderingsdetectie. Dit paradigma stelt ons in staat om gebruik te maken van grootschalige synthetische beeldparen, met objectniveau en lokale regioveranderingen, afgeleid van bestaande beelddatasets, die onafhankelijk zijn van doel-anomaliedatasets. We stellen een one-prompt Meta-learning framework voor Universal Anomaly Segmentation (MetaUAS) voor, dat wordt getraind op deze synthetische dataset en vervolgens goed generaliseert om nieuwe of onzichtbare visuele anomalieën in de echte wereld te segmenteren. Om geometrische variaties tussen prompt- en query-afbeeldingen te hanteren, stellen we een soft feature alignment-module voor die gepaarde beeldveranderingsperceptie en enkelvoudige beeld semantische segmentatie verbindt. Dit is het eerste werk dat universele anomaliedetectie bereikt met een puur visueel model zonder afhankelijk te zijn van speciale anomaliedetectiedatasets en vooraf getrainde vision-language-modellen. Onze methode segmenteert effectief en efficiënt elke anomalie met slechts één normale beeldprompt en geniet van training-vrij zonder begeleiding van taal. Onze MetaUAS presteert aanzienlijk beter dan eerdere zero-shot, few-shot en zelfs full-shot anomaliedetectiemethoden. De code en vooraf getrainde modellen zijn beschikbaar op https://github.com/gaobb/MetaUAS.
English
Zero- and few-shot visual anomaly segmentation relies on powerful
vision-language models that detect unseen anomalies using manually designed
textual prompts. However, visual representations are inherently independent of
language. In this paper, we explore the potential of a pure visual foundation
model as an alternative to widely used vision-language models for universal
visual anomaly segmentation. We present a novel paradigm that unifies anomaly
segmentation into change segmentation. This paradigm enables us to leverage
large-scale synthetic image pairs, featuring object-level and local region
changes, derived from existing image datasets, which are independent of target
anomaly datasets. We propose a one-prompt Meta-learning framework for Universal
Anomaly Segmentation (MetaUAS) that is trained on this synthetic dataset and
then generalizes well to segment any novel or unseen visual anomalies in the
real world. To handle geometrical variations between prompt and query images,
we propose a soft feature alignment module that bridges paired-image change
perception and single-image semantic segmentation. This is the first work to
achieve universal anomaly segmentation using a pure vision model without
relying on special anomaly detection datasets and pre-trained visual-language
models. Our method effectively and efficiently segments any anomalies with only
one normal image prompt and enjoys training-free without guidance from
language. Our MetaUAS significantly outperforms previous zero-shot, few-shot,
and even full-shot anomaly segmentation methods. The code and pre-trained
models are available at https://github.com/gaobb/MetaUAS.Summary
AI-Generated Summary