ChatPaper.aiChatPaper

MetaUAS : Segmentation Universelle des Anomalies par Méta-Apprentissage avec un Seul Prompt

MetaUAS: Universal Anomaly Segmentation with One-Prompt Meta-Learning

May 14, 2025
Auteurs: Bin-Bin Gao
cs.AI

Résumé

La segmentation d'anomalies visuelles en zero-shot et few-shot repose sur des modèles vision-langage puissants qui détectent des anomalies inédites à l'aide de prompts textuels conçus manuellement. Cependant, les représentations visuelles sont intrinsèquement indépendantes du langage. Dans cet article, nous explorons le potentiel d'un modèle de fondation purement visuel comme alternative aux modèles vision-langage largement utilisés pour la segmentation universelle d'anomalies visuelles. Nous présentons un nouveau paradigme qui unifie la segmentation d'anomalies dans la segmentation de changements. Ce paradigme nous permet d'exploiter des paires d'images synthétiques à grande échelle, mettant en avant des changements au niveau des objets et des régions locales, dérivées de jeux de données d'images existants, indépendants des jeux de données d'anomalies cibles. Nous proposons un cadre de méta-apprentissage à un prompt pour la Segmentation Universelle d'Anomalies (MetaUAS) qui est entraîné sur ce jeu de données synthétique et généralise ensuite bien pour segmenter toute nouvelle anomalie visuelle inédite dans le monde réel. Pour gérer les variations géométriques entre les images de prompt et de requête, nous proposons un module d'alignement de caractéristiques doux qui relie la perception de changement d'images appariées à la segmentation sémantique d'image unique. Ce travail est le premier à réaliser la segmentation universelle d'anomalies en utilisant un modèle purement visuel sans s'appuyer sur des jeux de données spécialisés de détection d'anomalies et des modèles vision-langage pré-entraînés. Notre méthode segmente efficacement et de manière efficiente toute anomalie avec un seul prompt d'image normale et bénéficie d'un apprentissage sans entraînement et sans guidance linguistique. Notre MetaUAS surpasse significativement les méthodes précédentes de segmentation d'anomalies en zero-shot, few-shot, et même en full-shot. Le code et les modèles pré-entraînés sont disponibles à l'adresse https://github.com/gaobb/MetaUAS.
English
Zero- and few-shot visual anomaly segmentation relies on powerful vision-language models that detect unseen anomalies using manually designed textual prompts. However, visual representations are inherently independent of language. In this paper, we explore the potential of a pure visual foundation model as an alternative to widely used vision-language models for universal visual anomaly segmentation. We present a novel paradigm that unifies anomaly segmentation into change segmentation. This paradigm enables us to leverage large-scale synthetic image pairs, featuring object-level and local region changes, derived from existing image datasets, which are independent of target anomaly datasets. We propose a one-prompt Meta-learning framework for Universal Anomaly Segmentation (MetaUAS) that is trained on this synthetic dataset and then generalizes well to segment any novel or unseen visual anomalies in the real world. To handle geometrical variations between prompt and query images, we propose a soft feature alignment module that bridges paired-image change perception and single-image semantic segmentation. This is the first work to achieve universal anomaly segmentation using a pure vision model without relying on special anomaly detection datasets and pre-trained visual-language models. Our method effectively and efficiently segments any anomalies with only one normal image prompt and enjoys training-free without guidance from language. Our MetaUAS significantly outperforms previous zero-shot, few-shot, and even full-shot anomaly segmentation methods. The code and pre-trained models are available at https://github.com/gaobb/MetaUAS.

Summary

AI-Generated Summary

PDF42May 16, 2025