Apprendre à détecter des anomalies multiclasses avec une seule image normale

Résumé

Les réseaux de reconstruction non supervisés utilisant des transformeurs à auto-attention ont atteint des performances de pointe pour la détection d'anomalies multi-classes (unifiée) avec un seul modèle. Cependant, ces modèles de reconstruction à auto-attention opèrent principalement sur les caractéristiques cibles, ce qui peut entraîner une reconstruction parfaite à la fois des caractéristiques normales et des anomalies en raison d'une forte cohérence avec le contexte, conduisant à un échec dans la détection des anomalies. De plus, ces modèles produisent souvent une segmentation inexacte des anomalies en raison de la reconstruction dans un espace latent à faible résolution spatiale. Pour permettre aux modèles de reconstruction de bénéficier d'une grande efficacité tout en améliorant leur généralisation pour la détection unifiée d'anomalies, nous proposons une méthode simple mais efficace qui reconstruit les caractéristiques normales et restaure les caractéristiques d'anomalies avec un seul **Prompt d'Image Normale** (OneNIP). Contrairement aux travaux précédents, OneNIP permet pour la première fois de reconstruire ou de restaurer des anomalies avec un seul prompt d'image normale, améliorant ainsi significativement les performances de détection unifiée d'anomalies. En outre, nous proposons un raffineur supervisé qui régresse les erreurs de reconstruction en utilisant à la fois des images normales réelles et des images anormales synthétisées, ce qui améliore considérablement la segmentation des anomalies au niveau des pixels. OneNIP surpasse les méthodes précédentes sur trois benchmarks industriels de détection d'anomalies : MVTec, BTAD et VisA. Le code et les modèles pré-entraînés sont disponibles à l'adresse https://github.com/gaobb/OneNIP.

English

Unsupervised reconstruction networks using self-attention transformers have achieved state-of-the-art performance for multi-class (unified) anomaly detection with a single model. However, these self-attention reconstruction models primarily operate on target features, which may result in perfect reconstruction for both normal and anomaly features due to high consistency with context, leading to failure in detecting anomalies. Additionally, these models often produce inaccurate anomaly segmentation due to performing reconstruction in a low spatial resolution latent space. To enable reconstruction models enjoying high efficiency while enhancing their generalization for unified anomaly detection, we propose a simple yet effective method that reconstructs normal features and restores anomaly features with just One Normal Image Prompt (OneNIP). In contrast to previous work, OneNIP allows for the first time to reconstruct or restore anomalies with just one normal image prompt, effectively boosting unified anomaly detection performance. Furthermore, we propose a supervised refiner that regresses reconstruction errors by using both real normal and synthesized anomalous images, which significantly improves pixel-level anomaly segmentation. OneNIP outperforms previous methods on three industry anomaly detection benchmarks: MVTec, BTAD, and VisA. The code and pre-trained models are available at https://github.com/gaobb/OneNIP.

Apprendre à détecter des anomalies multiclasses avec une seule image normale

Learning to Detect Multi-class Anomalies with Just One Normal Image Prompt

Résumé

Support