Apprendre à détecter des anomalies multiclasses avec une seule image normale
Learning to Detect Multi-class Anomalies with Just One Normal Image Prompt
May 14, 2025
Auteurs: Bin-Bin Gao
cs.AI
Résumé
Les réseaux de reconstruction non supervisés utilisant des transformeurs à auto-attention ont atteint des performances de pointe pour la détection d'anomalies multi-classes (unifiée) avec un seul modèle. Cependant, ces modèles de reconstruction à auto-attention opèrent principalement sur les caractéristiques cibles, ce qui peut entraîner une reconstruction parfaite à la fois des caractéristiques normales et des anomalies en raison d'une forte cohérence avec le contexte, conduisant à un échec dans la détection des anomalies. De plus, ces modèles produisent souvent une segmentation inexacte des anomalies en raison de la reconstruction dans un espace latent à faible résolution spatiale. Pour permettre aux modèles de reconstruction de bénéficier d'une grande efficacité tout en améliorant leur généralisation pour la détection unifiée d'anomalies, nous proposons une méthode simple mais efficace qui reconstruit les caractéristiques normales et restaure les caractéristiques d'anomalies avec un seul **Prompt d'Image Normale** (OneNIP). Contrairement aux travaux précédents, OneNIP permet pour la première fois de reconstruire ou de restaurer des anomalies avec un seul prompt d'image normale, améliorant ainsi significativement les performances de détection unifiée d'anomalies. En outre, nous proposons un raffineur supervisé qui régresse les erreurs de reconstruction en utilisant à la fois des images normales réelles et des images anormales synthétisées, ce qui améliore considérablement la segmentation des anomalies au niveau des pixels. OneNIP surpasse les méthodes précédentes sur trois benchmarks industriels de détection d'anomalies : MVTec, BTAD et VisA. Le code et les modèles pré-entraînés sont disponibles à l'adresse https://github.com/gaobb/OneNIP.
English
Unsupervised reconstruction networks using self-attention transformers have
achieved state-of-the-art performance for multi-class (unified) anomaly
detection with a single model. However, these self-attention reconstruction
models primarily operate on target features, which may result in perfect
reconstruction for both normal and anomaly features due to high consistency
with context, leading to failure in detecting anomalies. Additionally, these
models often produce inaccurate anomaly segmentation due to performing
reconstruction in a low spatial resolution latent space. To enable
reconstruction models enjoying high efficiency while enhancing their
generalization for unified anomaly detection, we propose a simple yet effective
method that reconstructs normal features and restores anomaly features with
just One Normal Image Prompt (OneNIP). In contrast to previous work, OneNIP
allows for the first time to reconstruct or restore anomalies with just one
normal image prompt, effectively boosting unified anomaly detection
performance. Furthermore, we propose a supervised refiner that regresses
reconstruction errors by using both real normal and synthesized anomalous
images, which significantly improves pixel-level anomaly segmentation. OneNIP
outperforms previous methods on three industry anomaly detection benchmarks:
MVTec, BTAD, and VisA. The code and pre-trained models are available at
https://github.com/gaobb/OneNIP.Summary
AI-Generated Summary