MetaUAS: Segmentazione Universale delle Anomalie con Meta-Apprendimento a Singolo Prompt
MetaUAS: Universal Anomaly Segmentation with One-Prompt Meta-Learning
May 14, 2025
Autori: Bin-Bin Gao
cs.AI
Abstract
La segmentazione visiva delle anomalie in contesti zero-shot e few-shot si basa su potenti modelli visione-linguaggio che rilevano anomalie non viste utilizzando prompt testuali progettati manualmente. Tuttavia, le rappresentazioni visive sono intrinsecamente indipendenti dal linguaggio. In questo articolo, esploriamo il potenziale di un modello di fondazione puramente visivo come alternativa ai modelli visione-linguaggio ampiamente utilizzati per la segmentazione visiva universale delle anomalie. Presentiamo un nuovo paradigma che unifica la segmentazione delle anomalie nella segmentazione dei cambiamenti. Questo paradigma ci consente di sfruttare coppie di immagini sintetiche su larga scala, caratterizzate da cambiamenti a livello di oggetto e di regioni locali, derivate da dataset di immagini esistenti, che sono indipendenti dai dataset di anomalie target. Proponiamo un framework di meta-apprendimento one-prompt per la Segmentazione Universale delle Anomalie (MetaUAS) che viene addestrato su questo dataset sintetico e poi generalizza bene per segmentare qualsiasi anomalia visiva nuova o non vista nel mondo reale. Per gestire le variazioni geometriche tra le immagini prompt e query, proponiamo un modulo di allineamento soft delle feature che collega la percezione dei cambiamenti tra immagini accoppiate e la segmentazione semantica di immagini singole. Questo è il primo lavoro che raggiunge la segmentazione universale delle anomalie utilizzando un modello puramente visivo senza fare affidamento su dataset speciali per la rilevazione delle anomalie e modelli pre-addestrati visione-linguaggio. Il nostro metodo segmenta efficacemente ed efficientemente qualsiasi anomalia con un solo prompt di immagine normale e gode di un addestramento senza la guida del linguaggio. Il nostro MetaUAS supera significativamente i precedenti metodi di segmentazione delle anomalie zero-shot, few-shot e persino full-shot. Il codice e i modelli pre-addestrati sono disponibili all'indirizzo https://github.com/gaobb/MetaUAS.
English
Zero- and few-shot visual anomaly segmentation relies on powerful
vision-language models that detect unseen anomalies using manually designed
textual prompts. However, visual representations are inherently independent of
language. In this paper, we explore the potential of a pure visual foundation
model as an alternative to widely used vision-language models for universal
visual anomaly segmentation. We present a novel paradigm that unifies anomaly
segmentation into change segmentation. This paradigm enables us to leverage
large-scale synthetic image pairs, featuring object-level and local region
changes, derived from existing image datasets, which are independent of target
anomaly datasets. We propose a one-prompt Meta-learning framework for Universal
Anomaly Segmentation (MetaUAS) that is trained on this synthetic dataset and
then generalizes well to segment any novel or unseen visual anomalies in the
real world. To handle geometrical variations between prompt and query images,
we propose a soft feature alignment module that bridges paired-image change
perception and single-image semantic segmentation. This is the first work to
achieve universal anomaly segmentation using a pure vision model without
relying on special anomaly detection datasets and pre-trained visual-language
models. Our method effectively and efficiently segments any anomalies with only
one normal image prompt and enjoys training-free without guidance from
language. Our MetaUAS significantly outperforms previous zero-shot, few-shot,
and even full-shot anomaly segmentation methods. The code and pre-trained
models are available at https://github.com/gaobb/MetaUAS.