MetaUAS: Segmentación Universal de Anomalías con Meta-Aprendizaje de Un Solo Prompt
MetaUAS: Universal Anomaly Segmentation with One-Prompt Meta-Learning
May 14, 2025
Autores: Bin-Bin Gao
cs.AI
Resumen
La segmentación visual de anomalías en escenarios de cero y pocos ejemplos se basa en potentes modelos de visión-lenguaje que detectan anomalías no vistas utilizando indicaciones textuales diseñadas manualmente. Sin embargo, las representaciones visuales son inherentemente independientes del lenguaje. En este artículo, exploramos el potencial de un modelo de visión pura como alternativa a los modelos de visión-lenguaje ampliamente utilizados para la segmentación visual universal de anomalías. Presentamos un nuevo paradigma que unifica la segmentación de anomalías en la segmentación de cambios. Este paradigma nos permite aprovechar pares de imágenes sintéticas a gran escala, que presentan cambios a nivel de objeto y en regiones locales, derivados de conjuntos de datos de imágenes existentes, los cuales son independientes de los conjuntos de datos de anomalías objetivo. Proponemos un marco de meta-aprendizaje de una sola indicación para la Segmentación Universal de Anomalías (MetaUAS) que se entrena en este conjunto de datos sintético y luego generaliza bien para segmentar cualquier anomalía visual nueva o no vista en el mundo real. Para manejar las variaciones geométricas entre la imagen de indicación y la imagen de consulta, proponemos un módulo de alineación suave de características que conecta la percepción de cambios en imágenes pareadas con la segmentación semántica de imágenes individuales. Este es el primer trabajo en lograr la segmentación universal de anomalías utilizando un modelo de visión pura sin depender de conjuntos de datos especiales de detección de anomalías ni de modelos preentrenados de visión-lenguaje. Nuestro método segmenta cualquier anomalía de manera efectiva y eficiente con solo una imagen normal como indicación y disfruta de un entrenamiento libre sin guía del lenguaje. Nuestro MetaUAS supera significativamente a los métodos anteriores de segmentación de anomalías de cero ejemplos, pocos ejemplos e incluso de ejemplos completos. El código y los modelos preentrenados están disponibles en https://github.com/gaobb/MetaUAS.
English
Zero- and few-shot visual anomaly segmentation relies on powerful
vision-language models that detect unseen anomalies using manually designed
textual prompts. However, visual representations are inherently independent of
language. In this paper, we explore the potential of a pure visual foundation
model as an alternative to widely used vision-language models for universal
visual anomaly segmentation. We present a novel paradigm that unifies anomaly
segmentation into change segmentation. This paradigm enables us to leverage
large-scale synthetic image pairs, featuring object-level and local region
changes, derived from existing image datasets, which are independent of target
anomaly datasets. We propose a one-prompt Meta-learning framework for Universal
Anomaly Segmentation (MetaUAS) that is trained on this synthetic dataset and
then generalizes well to segment any novel or unseen visual anomalies in the
real world. To handle geometrical variations between prompt and query images,
we propose a soft feature alignment module that bridges paired-image change
perception and single-image semantic segmentation. This is the first work to
achieve universal anomaly segmentation using a pure vision model without
relying on special anomaly detection datasets and pre-trained visual-language
models. Our method effectively and efficiently segments any anomalies with only
one normal image prompt and enjoys training-free without guidance from
language. Our MetaUAS significantly outperforms previous zero-shot, few-shot,
and even full-shot anomaly segmentation methods. The code and pre-trained
models are available at https://github.com/gaobb/MetaUAS.Summary
AI-Generated Summary