MetaUAS: Segmentación Universal de Anomalías con Meta-Aprendizaje de Un Solo Prompt

Resumen

La segmentación visual de anomalías en escenarios de cero y pocos ejemplos se basa en potentes modelos de visión-lenguaje que detectan anomalías no vistas utilizando indicaciones textuales diseñadas manualmente. Sin embargo, las representaciones visuales son inherentemente independientes del lenguaje. En este artículo, exploramos el potencial de un modelo de visión pura como alternativa a los modelos de visión-lenguaje ampliamente utilizados para la segmentación visual universal de anomalías. Presentamos un nuevo paradigma que unifica la segmentación de anomalías en la segmentación de cambios. Este paradigma nos permite aprovechar pares de imágenes sintéticas a gran escala, que presentan cambios a nivel de objeto y en regiones locales, derivados de conjuntos de datos de imágenes existentes, los cuales son independientes de los conjuntos de datos de anomalías objetivo. Proponemos un marco de meta-aprendizaje de una sola indicación para la Segmentación Universal de Anomalías (MetaUAS) que se entrena en este conjunto de datos sintético y luego generaliza bien para segmentar cualquier anomalía visual nueva o no vista en el mundo real. Para manejar las variaciones geométricas entre la imagen de indicación y la imagen de consulta, proponemos un módulo de alineación suave de características que conecta la percepción de cambios en imágenes pareadas con la segmentación semántica de imágenes individuales. Este es el primer trabajo en lograr la segmentación universal de anomalías utilizando un modelo de visión pura sin depender de conjuntos de datos especiales de detección de anomalías ni de modelos preentrenados de visión-lenguaje. Nuestro método segmenta cualquier anomalía de manera efectiva y eficiente con solo una imagen normal como indicación y disfruta de un entrenamiento libre sin guía del lenguaje. Nuestro MetaUAS supera significativamente a los métodos anteriores de segmentación de anomalías de cero ejemplos, pocos ejemplos e incluso de ejemplos completos. El código y los modelos preentrenados están disponibles en https://github.com/gaobb/MetaUAS.

English

Zero- and few-shot visual anomaly segmentation relies on powerful vision-language models that detect unseen anomalies using manually designed textual prompts. However, visual representations are inherently independent of language. In this paper, we explore the potential of a pure visual foundation model as an alternative to widely used vision-language models for universal visual anomaly segmentation. We present a novel paradigm that unifies anomaly segmentation into change segmentation. This paradigm enables us to leverage large-scale synthetic image pairs, featuring object-level and local region changes, derived from existing image datasets, which are independent of target anomaly datasets. We propose a one-prompt Meta-learning framework for Universal Anomaly Segmentation (MetaUAS) that is trained on this synthetic dataset and then generalizes well to segment any novel or unseen visual anomalies in the real world. To handle geometrical variations between prompt and query images, we propose a soft feature alignment module that bridges paired-image change perception and single-image semantic segmentation. This is the first work to achieve universal anomaly segmentation using a pure vision model without relying on special anomaly detection datasets and pre-trained visual-language models. Our method effectively and efficiently segments any anomalies with only one normal image prompt and enjoys training-free without guidance from language. Our MetaUAS significantly outperforms previous zero-shot, few-shot, and even full-shot anomaly segmentation methods. The code and pre-trained models are available at https://github.com/gaobb/MetaUAS.

MetaUAS: Segmentación Universal de Anomalías con Meta-Aprendizaje de Un Solo Prompt

MetaUAS: Universal Anomaly Segmentation with One-Prompt Meta-Learning

Resumen

Support