MetaUAS: Universelle Anomaliesegmentierung mit One-Prompt Meta-Learning

Zusammenfassung

Zero- und Few-Shot Visual Anomaly Segmentation basiert auf leistungsstarken Vision-Language-Modellen, die ungesehene Anomalien mithilfe manuell gestalteter textueller Prompts erkennen. Visuelle Darstellungen sind jedoch inhärent unabhängig von Sprache. In diesem Artikel untersuchen wir das Potenzial eines rein visuellen Foundation-Modells als Alternative zu weit verbreiteten Vision-Language-Modellen für universelle visuelle Anomalie-Segmentierung. Wir präsentieren ein neuartiges Paradigma, das Anomalie-Segmentierung in Change-Segmentierung vereinheitlicht. Dieses Paradigma ermöglicht es uns, groß angelegte synthetische Bildpaare zu nutzen, die Objekt- und lokale Bereichsänderungen aufweisen und aus bestehenden Bilddatensätzen abgeleitet sind, unabhängig von Ziel-Anomalie-Datensätzen. Wir schlagen ein One-Prompt Meta-Learning-Framework für Universal Anomaly Segmentation (MetaUAS) vor, das auf diesem synthetischen Datensatz trainiert wird und sich dann gut verallgemeinern lässt, um jede neue oder ungesehene visuelle Anomalie in der realen Welt zu segmentieren. Um geometrische Variationen zwischen Prompt- und Abfragebildern zu handhaben, schlagen wir ein Soft Feature Alignment-Modul vor, das die Wahrnehmung von Bildpaaränderungen und die semantische Segmentierung einzelner Bilder verbindet. Dies ist die erste Arbeit, die universelle Anomalie-Segmentierung mit einem reinen Vision-Modell erreicht, ohne sich auf spezielle Anomalieerkennungsdatensätze und vortrainierte Vision-Language-Modelle zu verlassen. Unsere Methode segmentiert jede Anomalie effektiv und effizient mit nur einem normalen Bild-Prompt und kommt ohne Training und ohne sprachliche Anleitung aus. Unser MetaUAS übertrifft deutlich frühere Zero-Shot-, Few-Shot- und sogar Full-Shot-Anomalie-Segmentierungsmethoden. Der Code und die vortrainierten Modelle sind unter https://github.com/gaobb/MetaUAS verfügbar.

English

Zero- and few-shot visual anomaly segmentation relies on powerful vision-language models that detect unseen anomalies using manually designed textual prompts. However, visual representations are inherently independent of language. In this paper, we explore the potential of a pure visual foundation model as an alternative to widely used vision-language models for universal visual anomaly segmentation. We present a novel paradigm that unifies anomaly segmentation into change segmentation. This paradigm enables us to leverage large-scale synthetic image pairs, featuring object-level and local region changes, derived from existing image datasets, which are independent of target anomaly datasets. We propose a one-prompt Meta-learning framework for Universal Anomaly Segmentation (MetaUAS) that is trained on this synthetic dataset and then generalizes well to segment any novel or unseen visual anomalies in the real world. To handle geometrical variations between prompt and query images, we propose a soft feature alignment module that bridges paired-image change perception and single-image semantic segmentation. This is the first work to achieve universal anomaly segmentation using a pure vision model without relying on special anomaly detection datasets and pre-trained visual-language models. Our method effectively and efficiently segments any anomalies with only one normal image prompt and enjoys training-free without guidance from language. Our MetaUAS significantly outperforms previous zero-shot, few-shot, and even full-shot anomaly segmentation methods. The code and pre-trained models are available at https://github.com/gaobb/MetaUAS.

MetaUAS: Universelle Anomaliesegmentierung mit One-Prompt Meta-Learning

MetaUAS: Universal Anomaly Segmentation with One-Prompt Meta-Learning

Zusammenfassung

Support