ChatPaper.aiChatPaper

Imparare a Rilevare Anomalie Multi-classe con una Sola Immagine Normale Prompt

Learning to Detect Multi-class Anomalies with Just One Normal Image Prompt

May 14, 2025
Autori: Bin-Bin Gao
cs.AI

Abstract

Le reti di ricostruzione non supervisionate che utilizzano trasformatori con self-attention hanno raggiunto prestazioni all'avanguardia per il rilevamento di anomalie multi-classe (unificato) con un singolo modello. Tuttavia, questi modelli di ricostruzione basati su self-attention operano principalmente su caratteristiche target, il che può portare a una ricostruzione perfetta sia per le caratteristiche normali che per quelle anomale a causa dell'elevata coerenza con il contesto, risultando in un fallimento nel rilevamento delle anomalie. Inoltre, questi modelli spesso producono una segmentazione imprecisa delle anomalie poiché eseguono la ricostruzione in uno spazio latente a bassa risoluzione spaziale. Per consentire ai modelli di ricostruzione di godere di un'elevata efficienza migliorando al contempo la loro generalizzazione per il rilevamento unificato di anomalie, proponiamo un metodo semplice ma efficace che ricostruisce le caratteristiche normali e ripristina le caratteristiche anomale con un solo prompt di immagine normale (OneNIP). A differenza dei lavori precedenti, OneNIP consente per la prima volta di ricostruire o ripristinare anomalie con un solo prompt di immagine normale, migliorando significativamente le prestazioni del rilevamento unificato di anomalie. Inoltre, proponiamo un affinatore supervisionato che regressa gli errori di ricostruzione utilizzando sia immagini normali reali che immagini anomale sintetizzate, il che migliora notevolmente la segmentazione delle anomalie a livello di pixel. OneNIP supera i metodi precedenti su tre benchmark industriali per il rilevamento di anomalie: MVTec, BTAD e VisA. Il codice e i modelli pre-addestrati sono disponibili all'indirizzo https://github.com/gaobb/OneNIP.
English
Unsupervised reconstruction networks using self-attention transformers have achieved state-of-the-art performance for multi-class (unified) anomaly detection with a single model. However, these self-attention reconstruction models primarily operate on target features, which may result in perfect reconstruction for both normal and anomaly features due to high consistency with context, leading to failure in detecting anomalies. Additionally, these models often produce inaccurate anomaly segmentation due to performing reconstruction in a low spatial resolution latent space. To enable reconstruction models enjoying high efficiency while enhancing their generalization for unified anomaly detection, we propose a simple yet effective method that reconstructs normal features and restores anomaly features with just One Normal Image Prompt (OneNIP). In contrast to previous work, OneNIP allows for the first time to reconstruct or restore anomalies with just one normal image prompt, effectively boosting unified anomaly detection performance. Furthermore, we propose a supervised refiner that regresses reconstruction errors by using both real normal and synthesized anomalous images, which significantly improves pixel-level anomaly segmentation. OneNIP outperforms previous methods on three industry anomaly detection benchmarks: MVTec, BTAD, and VisA. The code and pre-trained models are available at https://github.com/gaobb/OneNIP.
PDF52May 16, 2025