MetaUAS: Segmentazione Universale delle Anomalie con Meta-Apprendimento a Singolo Prompt

Abstract

La segmentazione visiva delle anomalie in contesti zero-shot e few-shot si basa su potenti modelli visione-linguaggio che rilevano anomalie non viste utilizzando prompt testuali progettati manualmente. Tuttavia, le rappresentazioni visive sono intrinsecamente indipendenti dal linguaggio. In questo articolo, esploriamo il potenziale di un modello di fondazione puramente visivo come alternativa ai modelli visione-linguaggio ampiamente utilizzati per la segmentazione visiva universale delle anomalie. Presentiamo un nuovo paradigma che unifica la segmentazione delle anomalie nella segmentazione dei cambiamenti. Questo paradigma ci consente di sfruttare coppie di immagini sintetiche su larga scala, caratterizzate da cambiamenti a livello di oggetto e di regioni locali, derivate da dataset di immagini esistenti, che sono indipendenti dai dataset di anomalie target. Proponiamo un framework di meta-apprendimento one-prompt per la Segmentazione Universale delle Anomalie (MetaUAS) che viene addestrato su questo dataset sintetico e poi generalizza bene per segmentare qualsiasi anomalia visiva nuova o non vista nel mondo reale. Per gestire le variazioni geometriche tra le immagini prompt e query, proponiamo un modulo di allineamento soft delle feature che collega la percezione dei cambiamenti tra immagini accoppiate e la segmentazione semantica di immagini singole. Questo è il primo lavoro che raggiunge la segmentazione universale delle anomalie utilizzando un modello puramente visivo senza fare affidamento su dataset speciali per la rilevazione delle anomalie e modelli pre-addestrati visione-linguaggio. Il nostro metodo segmenta efficacemente ed efficientemente qualsiasi anomalia con un solo prompt di immagine normale e gode di un addestramento senza la guida del linguaggio. Il nostro MetaUAS supera significativamente i precedenti metodi di segmentazione delle anomalie zero-shot, few-shot e persino full-shot. Il codice e i modelli pre-addestrati sono disponibili all'indirizzo https://github.com/gaobb/MetaUAS.

English

Zero- and few-shot visual anomaly segmentation relies on powerful vision-language models that detect unseen anomalies using manually designed textual prompts. However, visual representations are inherently independent of language. In this paper, we explore the potential of a pure visual foundation model as an alternative to widely used vision-language models for universal visual anomaly segmentation. We present a novel paradigm that unifies anomaly segmentation into change segmentation. This paradigm enables us to leverage large-scale synthetic image pairs, featuring object-level and local region changes, derived from existing image datasets, which are independent of target anomaly datasets. We propose a one-prompt Meta-learning framework for Universal Anomaly Segmentation (MetaUAS) that is trained on this synthetic dataset and then generalizes well to segment any novel or unseen visual anomalies in the real world. To handle geometrical variations between prompt and query images, we propose a soft feature alignment module that bridges paired-image change perception and single-image semantic segmentation. This is the first work to achieve universal anomaly segmentation using a pure vision model without relying on special anomaly detection datasets and pre-trained visual-language models. Our method effectively and efficiently segments any anomalies with only one normal image prompt and enjoys training-free without guidance from language. Our MetaUAS significantly outperforms previous zero-shot, few-shot, and even full-shot anomaly segmentation methods. The code and pre-trained models are available at https://github.com/gaobb/MetaUAS.

MetaUAS: Segmentazione Universale delle Anomalie con Meta-Apprendimento a Singolo Prompt

MetaUAS: Universal Anomaly Segmentation with One-Prompt Meta-Learning

Abstract

Support