MetaUAS: Universelle Anomaliesegmentierung mit One-Prompt Meta-Learning
MetaUAS: Universal Anomaly Segmentation with One-Prompt Meta-Learning
May 14, 2025
Autoren: Bin-Bin Gao
cs.AI
Zusammenfassung
Zero- und Few-Shot Visual Anomaly Segmentation basiert auf leistungsstarken Vision-Language-Modellen, die ungesehene Anomalien mithilfe manuell gestalteter textueller Prompts erkennen. Visuelle Darstellungen sind jedoch inhärent unabhängig von Sprache. In diesem Artikel untersuchen wir das Potenzial eines rein visuellen Foundation-Modells als Alternative zu weit verbreiteten Vision-Language-Modellen für universelle visuelle Anomalie-Segmentierung. Wir präsentieren ein neuartiges Paradigma, das Anomalie-Segmentierung in Change-Segmentierung vereinheitlicht. Dieses Paradigma ermöglicht es uns, groß angelegte synthetische Bildpaare zu nutzen, die Objekt- und lokale Bereichsänderungen aufweisen und aus bestehenden Bilddatensätzen abgeleitet sind, unabhängig von Ziel-Anomalie-Datensätzen. Wir schlagen ein One-Prompt Meta-Learning-Framework für Universal Anomaly Segmentation (MetaUAS) vor, das auf diesem synthetischen Datensatz trainiert wird und sich dann gut verallgemeinern lässt, um jede neue oder ungesehene visuelle Anomalie in der realen Welt zu segmentieren. Um geometrische Variationen zwischen Prompt- und Abfragebildern zu handhaben, schlagen wir ein Soft Feature Alignment-Modul vor, das die Wahrnehmung von Bildpaaränderungen und die semantische Segmentierung einzelner Bilder verbindet. Dies ist die erste Arbeit, die universelle Anomalie-Segmentierung mit einem reinen Vision-Modell erreicht, ohne sich auf spezielle Anomalieerkennungsdatensätze und vortrainierte Vision-Language-Modelle zu verlassen. Unsere Methode segmentiert jede Anomalie effektiv und effizient mit nur einem normalen Bild-Prompt und kommt ohne Training und ohne sprachliche Anleitung aus. Unser MetaUAS übertrifft deutlich frühere Zero-Shot-, Few-Shot- und sogar Full-Shot-Anomalie-Segmentierungsmethoden. Der Code und die vortrainierten Modelle sind unter https://github.com/gaobb/MetaUAS verfügbar.
English
Zero- and few-shot visual anomaly segmentation relies on powerful
vision-language models that detect unseen anomalies using manually designed
textual prompts. However, visual representations are inherently independent of
language. In this paper, we explore the potential of a pure visual foundation
model as an alternative to widely used vision-language models for universal
visual anomaly segmentation. We present a novel paradigm that unifies anomaly
segmentation into change segmentation. This paradigm enables us to leverage
large-scale synthetic image pairs, featuring object-level and local region
changes, derived from existing image datasets, which are independent of target
anomaly datasets. We propose a one-prompt Meta-learning framework for Universal
Anomaly Segmentation (MetaUAS) that is trained on this synthetic dataset and
then generalizes well to segment any novel or unseen visual anomalies in the
real world. To handle geometrical variations between prompt and query images,
we propose a soft feature alignment module that bridges paired-image change
perception and single-image semantic segmentation. This is the first work to
achieve universal anomaly segmentation using a pure vision model without
relying on special anomaly detection datasets and pre-trained visual-language
models. Our method effectively and efficiently segments any anomalies with only
one normal image prompt and enjoys training-free without guidance from
language. Our MetaUAS significantly outperforms previous zero-shot, few-shot,
and even full-shot anomaly segmentation methods. The code and pre-trained
models are available at https://github.com/gaobb/MetaUAS.Summary
AI-Generated Summary