MetaUAS: Segmentação Universal de Anomalias com Meta-Aprendizado de Um-Prompt

Resumo

A segmentação visual de anomalias em cenários zero-shot e few-shot depende de modelos poderosos de visão e linguagem que detectam anomalias não vistas usando prompts textuais projetados manualmente. No entanto, as representações visuais são inerentemente independentes da linguagem. Neste artigo, exploramos o potencial de um modelo de base puramente visual como uma alternativa aos modelos de visão e linguagem amplamente utilizados para a segmentação visual universal de anomalias. Apresentamos um novo paradigma que unifica a segmentação de anomalias na segmentação de mudanças. Esse paradigma nos permite aproveitar pares de imagens sintéticas em grande escala, com mudanças em nível de objeto e em regiões locais, derivadas de conjuntos de dados de imagens existentes, que são independentes dos conjuntos de dados de anomalias alvo. Propomos uma estrutura de meta-aprendizado de um único prompt para Segmentação Universal de Anomalias (MetaUAS) que é treinada nesse conjunto de dados sintético e, em seguida, generaliza bem para segmentar qualquer anomalia visual nova ou não vista no mundo real. Para lidar com variações geométricas entre a imagem de prompt e a imagem de consulta, propomos um módulo de alinhamento suave de características que conecta a percepção de mudança em pares de imagens e a segmentação semântica de imagem única. Este é o primeiro trabalho a alcançar a segmentação universal de anomalias usando um modelo puramente visual, sem depender de conjuntos de dados especiais de detecção de anomalias e modelos pré-treinados de visão e linguagem. Nosso método segmenta qualquer anomalia de forma eficaz e eficiente com apenas uma imagem normal de prompt e dispensa o treinamento, sem orientação da linguagem. Nosso MetaUAS supera significativamente os métodos anteriores de segmentação de anomalias zero-shot, few-shot e até mesmo full-shot. O código e os modelos pré-treinados estão disponíveis em https://github.com/gaobb/MetaUAS.

English

Zero- and few-shot visual anomaly segmentation relies on powerful vision-language models that detect unseen anomalies using manually designed textual prompts. However, visual representations are inherently independent of language. In this paper, we explore the potential of a pure visual foundation model as an alternative to widely used vision-language models for universal visual anomaly segmentation. We present a novel paradigm that unifies anomaly segmentation into change segmentation. This paradigm enables us to leverage large-scale synthetic image pairs, featuring object-level and local region changes, derived from existing image datasets, which are independent of target anomaly datasets. We propose a one-prompt Meta-learning framework for Universal Anomaly Segmentation (MetaUAS) that is trained on this synthetic dataset and then generalizes well to segment any novel or unseen visual anomalies in the real world. To handle geometrical variations between prompt and query images, we propose a soft feature alignment module that bridges paired-image change perception and single-image semantic segmentation. This is the first work to achieve universal anomaly segmentation using a pure vision model without relying on special anomaly detection datasets and pre-trained visual-language models. Our method effectively and efficiently segments any anomalies with only one normal image prompt and enjoys training-free without guidance from language. Our MetaUAS significantly outperforms previous zero-shot, few-shot, and even full-shot anomaly segmentation methods. The code and pre-trained models are available at https://github.com/gaobb/MetaUAS.

MetaUAS: Segmentação Universal de Anomalias com Meta-Aprendizado de Um-Prompt

MetaUAS: Universal Anomaly Segmentation with One-Prompt Meta-Learning

Resumo

Support