MetaUAS: Segmentação Universal de Anomalias com Meta-Aprendizado de Um-Prompt
MetaUAS: Universal Anomaly Segmentation with One-Prompt Meta-Learning
May 14, 2025
Autores: Bin-Bin Gao
cs.AI
Resumo
A segmentação visual de anomalias em cenários zero-shot e few-shot depende de modelos poderosos de visão e linguagem que detectam anomalias não vistas usando prompts textuais projetados manualmente. No entanto, as representações visuais são inerentemente independentes da linguagem. Neste artigo, exploramos o potencial de um modelo de base puramente visual como uma alternativa aos modelos de visão e linguagem amplamente utilizados para a segmentação visual universal de anomalias. Apresentamos um novo paradigma que unifica a segmentação de anomalias na segmentação de mudanças. Esse paradigma nos permite aproveitar pares de imagens sintéticas em grande escala, com mudanças em nível de objeto e em regiões locais, derivadas de conjuntos de dados de imagens existentes, que são independentes dos conjuntos de dados de anomalias alvo. Propomos uma estrutura de meta-aprendizado de um único prompt para Segmentação Universal de Anomalias (MetaUAS) que é treinada nesse conjunto de dados sintético e, em seguida, generaliza bem para segmentar qualquer anomalia visual nova ou não vista no mundo real. Para lidar com variações geométricas entre a imagem de prompt e a imagem de consulta, propomos um módulo de alinhamento suave de características que conecta a percepção de mudança em pares de imagens e a segmentação semântica de imagem única. Este é o primeiro trabalho a alcançar a segmentação universal de anomalias usando um modelo puramente visual, sem depender de conjuntos de dados especiais de detecção de anomalias e modelos pré-treinados de visão e linguagem. Nosso método segmenta qualquer anomalia de forma eficaz e eficiente com apenas uma imagem normal de prompt e dispensa o treinamento, sem orientação da linguagem. Nosso MetaUAS supera significativamente os métodos anteriores de segmentação de anomalias zero-shot, few-shot e até mesmo full-shot. O código e os modelos pré-treinados estão disponíveis em https://github.com/gaobb/MetaUAS.
English
Zero- and few-shot visual anomaly segmentation relies on powerful
vision-language models that detect unseen anomalies using manually designed
textual prompts. However, visual representations are inherently independent of
language. In this paper, we explore the potential of a pure visual foundation
model as an alternative to widely used vision-language models for universal
visual anomaly segmentation. We present a novel paradigm that unifies anomaly
segmentation into change segmentation. This paradigm enables us to leverage
large-scale synthetic image pairs, featuring object-level and local region
changes, derived from existing image datasets, which are independent of target
anomaly datasets. We propose a one-prompt Meta-learning framework for Universal
Anomaly Segmentation (MetaUAS) that is trained on this synthetic dataset and
then generalizes well to segment any novel or unseen visual anomalies in the
real world. To handle geometrical variations between prompt and query images,
we propose a soft feature alignment module that bridges paired-image change
perception and single-image semantic segmentation. This is the first work to
achieve universal anomaly segmentation using a pure vision model without
relying on special anomaly detection datasets and pre-trained visual-language
models. Our method effectively and efficiently segments any anomalies with only
one normal image prompt and enjoys training-free without guidance from
language. Our MetaUAS significantly outperforms previous zero-shot, few-shot,
and even full-shot anomaly segmentation methods. The code and pre-trained
models are available at https://github.com/gaobb/MetaUAS.