MetaUAS: 원-프롬프트 메타러닝을 통한 범용 이상 분할
MetaUAS: Universal Anomaly Segmentation with One-Prompt Meta-Learning
May 14, 2025
저자: Bin-Bin Gao
cs.AI
초록
제로샷 및 퓨샷 시각적 이상 분할은 수동으로 설계된 텍스트 프롬프트를 사용하여 보이지 않는 이상을 감지하는 강력한 시각-언어 모델에 의존합니다. 그러나 시각적 표현은 본질적으로 언어와 독립적입니다. 본 논문에서는 보편적인 시각적 이상 분할을 위해 널리 사용되는 시각-언어 모델 대안으로 순수 시각 기반 모델의 잠재력을 탐구합니다. 우리는 이상 분할을 변화 분할로 통합하는 새로운 패러다임을 제시합니다. 이 패러다임은 대상 이상 데이터셋과 독립적으로 기존 이미지 데이터셋에서 파생된 객체 수준 및 지역적 변화를 특징으로 하는 대규모 합성 이미지 쌍을 활용할 수 있게 합니다. 우리는 이 합성 데이터셋에서 훈련된 후 실제 세계에서 새로운 또는 보이지 않는 시각적 이상을 잘 분할할 수 있는 범용 이상 분선을 위한 원-프롬프트 메타러닝 프레임워크(MetaUAS)를 제안합니다. 프롬프트와 쿼리 이미지 간의 기하학적 변동을 처리하기 위해, 우리는 쌍 이미지 변화 인식과 단일 이미지 의미 분할을 연결하는 소프트 특징 정렬 모듈을 제안합니다. 이는 특수 이상 감지 데이터셋과 사전 훈련된 시각-언어 모델에 의존하지 않고 순수 시각 모델을 사용하여 범용 이상 분할을 달성한 첫 번째 작업입니다. 우리의 방법은 단 하나의 정상 이미지 프롬프트만으로도 모든 이상을 효과적이고 효율적으로 분할하며, 언어의 지도 없이도 훈련 없이 작동합니다. 우리의 MetaUAS는 이전의 제로샷, 퓨샷, 그리고 심지어 풀샷 이상 분할 방법들을 크게 능가합니다. 코드와 사전 훈련된 모델은 https://github.com/gaobb/MetaUAS에서 확인할 수 있습니다.
English
Zero- and few-shot visual anomaly segmentation relies on powerful
vision-language models that detect unseen anomalies using manually designed
textual prompts. However, visual representations are inherently independent of
language. In this paper, we explore the potential of a pure visual foundation
model as an alternative to widely used vision-language models for universal
visual anomaly segmentation. We present a novel paradigm that unifies anomaly
segmentation into change segmentation. This paradigm enables us to leverage
large-scale synthetic image pairs, featuring object-level and local region
changes, derived from existing image datasets, which are independent of target
anomaly datasets. We propose a one-prompt Meta-learning framework for Universal
Anomaly Segmentation (MetaUAS) that is trained on this synthetic dataset and
then generalizes well to segment any novel or unseen visual anomalies in the
real world. To handle geometrical variations between prompt and query images,
we propose a soft feature alignment module that bridges paired-image change
perception and single-image semantic segmentation. This is the first work to
achieve universal anomaly segmentation using a pure vision model without
relying on special anomaly detection datasets and pre-trained visual-language
models. Our method effectively and efficiently segments any anomalies with only
one normal image prompt and enjoys training-free without guidance from
language. Our MetaUAS significantly outperforms previous zero-shot, few-shot,
and even full-shot anomaly segmentation methods. The code and pre-trained
models are available at https://github.com/gaobb/MetaUAS.Summary
AI-Generated Summary