Aprendiendo a Detectar Anomalías Multiclase con Solo una Imagen Normal
Learning to Detect Multi-class Anomalies with Just One Normal Image Prompt
May 14, 2025
Autores: Bin-Bin Gao
cs.AI
Resumen
Las redes de reconstrucción no supervisadas que utilizan transformadores de auto-atención han logrado un rendimiento de vanguardia en la detección de anomalías multiclase (unificada) con un solo modelo. Sin embargo, estos modelos de reconstrucción basados en auto-atención operan principalmente sobre características objetivo, lo que puede resultar en una reconstrucción perfecta tanto para características normales como anómalas debido a su alta consistencia con el contexto, lo que lleva a fallos en la detección de anomalías. Además, estos modelos a menudo producen una segmentación de anomalías imprecisa debido a que realizan la reconstrucción en un espacio latente de baja resolución espacial. Para permitir que los modelos de reconstrucción disfruten de alta eficiencia mientras mejoran su generalización para la detección unificada de anomalías, proponemos un método simple pero efectivo que reconstruye características normales y restaura características anómalas con solo Una Imagen Normal de Referencia (OneNIP). A diferencia de trabajos anteriores, OneNIP permite por primera vez reconstruir o restaurar anomalías con solo una imagen normal de referencia, mejorando significativamente el rendimiento en la detección unificada de anomalías. Además, proponemos un refinador supervisado que regresa errores de reconstrucción utilizando tanto imágenes normales reales como imágenes anómalas sintetizadas, lo que mejora notablemente la segmentación de anomalías a nivel de píxel. OneNIP supera a métodos anteriores en tres benchmarks de detección de anomalías industriales: MVTec, BTAD y VisA. El código y los modelos preentrenados están disponibles en https://github.com/gaobb/OneNIP.
English
Unsupervised reconstruction networks using self-attention transformers have
achieved state-of-the-art performance for multi-class (unified) anomaly
detection with a single model. However, these self-attention reconstruction
models primarily operate on target features, which may result in perfect
reconstruction for both normal and anomaly features due to high consistency
with context, leading to failure in detecting anomalies. Additionally, these
models often produce inaccurate anomaly segmentation due to performing
reconstruction in a low spatial resolution latent space. To enable
reconstruction models enjoying high efficiency while enhancing their
generalization for unified anomaly detection, we propose a simple yet effective
method that reconstructs normal features and restores anomaly features with
just One Normal Image Prompt (OneNIP). In contrast to previous work, OneNIP
allows for the first time to reconstruct or restore anomalies with just one
normal image prompt, effectively boosting unified anomaly detection
performance. Furthermore, we propose a supervised refiner that regresses
reconstruction errors by using both real normal and synthesized anomalous
images, which significantly improves pixel-level anomaly segmentation. OneNIP
outperforms previous methods on three industry anomaly detection benchmarks:
MVTec, BTAD, and VisA. The code and pre-trained models are available at
https://github.com/gaobb/OneNIP.Summary
AI-Generated Summary