Aprendendo a Detectar Anomalias Multiclasse com Apenas uma Imagem Normal
Learning to Detect Multi-class Anomalies with Just One Normal Image Prompt
May 14, 2025
Autores: Bin-Bin Gao
cs.AI
Resumo
Redes de reconstrução não supervisionadas que utilizam transformadores com auto-atenção alcançaram desempenho de ponta para detecção de anomalias multiclasse (unificada) com um único modelo. No entanto, esses modelos de reconstrução com auto-atenção operam principalmente em características do alvo, o que pode resultar em reconstrução perfeita tanto para características normais quanto para anomalias devido à alta consistência com o contexto, levando à falha na detecção de anomalias. Além disso, esses modelos frequentemente produzem segmentação imprecisa de anomalias por realizar a reconstrução em um espaço latente de baixa resolução espacial. Para permitir que modelos de reconstrução mantenham alta eficiência enquanto melhoram sua generalização para detecção unificada de anomalias, propomos um método simples, porém eficaz, que reconstrói características normais e restaura características anômalas com apenas Um Prompt de Imagem Normal (OneNIP). Em contraste com trabalhos anteriores, o OneNIP permite, pela primeira vez, reconstruir ou restaurar anomalias com apenas um prompt de imagem normal, aumentando efetivamente o desempenho da detecção unificada de anomalias. Além disso, propomos um refinador supervisionado que regride erros de reconstrução utilizando tanto imagens normais reais quanto imagens anômalas sintetizadas, o que melhora significativamente a segmentação de anomalias em nível de pixel. O OneNIP supera métodos anteriores em três benchmarks de detecção de anomalias industriais: MVTec, BTAD e VisA. O código e os modelos pré-treinados estão disponíveis em https://github.com/gaobb/OneNIP.
English
Unsupervised reconstruction networks using self-attention transformers have
achieved state-of-the-art performance for multi-class (unified) anomaly
detection with a single model. However, these self-attention reconstruction
models primarily operate on target features, which may result in perfect
reconstruction for both normal and anomaly features due to high consistency
with context, leading to failure in detecting anomalies. Additionally, these
models often produce inaccurate anomaly segmentation due to performing
reconstruction in a low spatial resolution latent space. To enable
reconstruction models enjoying high efficiency while enhancing their
generalization for unified anomaly detection, we propose a simple yet effective
method that reconstructs normal features and restores anomaly features with
just One Normal Image Prompt (OneNIP). In contrast to previous work, OneNIP
allows for the first time to reconstruct or restore anomalies with just one
normal image prompt, effectively boosting unified anomaly detection
performance. Furthermore, we propose a supervised refiner that regresses
reconstruction errors by using both real normal and synthesized anomalous
images, which significantly improves pixel-level anomaly segmentation. OneNIP
outperforms previous methods on three industry anomaly detection benchmarks:
MVTec, BTAD, and VisA. The code and pre-trained models are available at
https://github.com/gaobb/OneNIP.