MetaUAS: ワンショットメタ学習によるユニバーサル異常セグメンテーション
MetaUAS: Universal Anomaly Segmentation with One-Prompt Meta-Learning
May 14, 2025
著者: Bin-Bin Gao
cs.AI
要旨
ゼロショットおよび少数ショットの視覚的異常セグメンテーションは、手動で設計されたテキストプロンプトを使用して未知の異常を検出する強力な視覚-言語モデルに依存しています。しかし、視覚的表現は本質的に言語から独立しています。本論文では、普遍的な視覚的異常セグメンテーションのために広く使用されている視覚-言語モデルの代替として、純粋な視覚基盤モデルの可能性を探ります。異常セグメンテーションを変化セグメンテーションに統合する新しいパラダイムを提示します。このパラダイムにより、ターゲットの異常データセットから独立した既存の画像データセットから派生した、オブジェクトレベルおよび局所領域の変化を特徴とする大規模な合成画像ペアを活用することが可能になります。この合成データセットで訓練され、その後現実世界の新しいまたは未知の視覚的異常をセグメント化するためにうまく一般化する、普遍的な異常セグメンテーションのためのワンプロンプトメタ学習フレームワーク(MetaUAS)を提案します。プロンプト画像とクエリ画像間の幾何学的変動を処理するために、ペア画像の変化知覚と単一画像のセマンティックセグメンテーションを橋渡しするソフト特徴アライメントモジュールを提案します。これは、特別な異常検出データセットや事前訓練された視覚-言語モデルに依存せずに、純粋な視覚モデルを使用して普遍的な異常セグメンテーションを達成する最初の研究です。私たちの方法は、1つの正常な画像プロンプトのみで任意の異常を効果的かつ効率的にセグメント化し、言語のガイダンスなしで訓練不要です。私たちのMetaUASは、以前のゼロショット、少数ショット、さらにはフルショットの異常セグメンテーション方法を大幅に上回ります。コードと事前訓練済みモデルはhttps://github.com/gaobb/MetaUASで利用可能です。
English
Zero- and few-shot visual anomaly segmentation relies on powerful
vision-language models that detect unseen anomalies using manually designed
textual prompts. However, visual representations are inherently independent of
language. In this paper, we explore the potential of a pure visual foundation
model as an alternative to widely used vision-language models for universal
visual anomaly segmentation. We present a novel paradigm that unifies anomaly
segmentation into change segmentation. This paradigm enables us to leverage
large-scale synthetic image pairs, featuring object-level and local region
changes, derived from existing image datasets, which are independent of target
anomaly datasets. We propose a one-prompt Meta-learning framework for Universal
Anomaly Segmentation (MetaUAS) that is trained on this synthetic dataset and
then generalizes well to segment any novel or unseen visual anomalies in the
real world. To handle geometrical variations between prompt and query images,
we propose a soft feature alignment module that bridges paired-image change
perception and single-image semantic segmentation. This is the first work to
achieve universal anomaly segmentation using a pure vision model without
relying on special anomaly detection datasets and pre-trained visual-language
models. Our method effectively and efficiently segments any anomalies with only
one normal image prompt and enjoys training-free without guidance from
language. Our MetaUAS significantly outperforms previous zero-shot, few-shot,
and even full-shot anomaly segmentation methods. The code and pre-trained
models are available at https://github.com/gaobb/MetaUAS.Summary
AI-Generated Summary