ChatPaper.aiChatPaper

Aprendendo a Detectar Anomalias Multiclasse com Apenas uma Imagem Normal

Learning to Detect Multi-class Anomalies with Just One Normal Image Prompt

May 14, 2025
Autores: Bin-Bin Gao
cs.AI

Resumo

Redes de reconstrução não supervisionadas que utilizam transformadores com auto-atenção alcançaram desempenho de ponta para detecção de anomalias multiclasse (unificada) com um único modelo. No entanto, esses modelos de reconstrução com auto-atenção operam principalmente em características do alvo, o que pode resultar em reconstrução perfeita tanto para características normais quanto para anomalias devido à alta consistência com o contexto, levando à falha na detecção de anomalias. Além disso, esses modelos frequentemente produzem segmentação imprecisa de anomalias por realizar a reconstrução em um espaço latente de baixa resolução espacial. Para permitir que modelos de reconstrução mantenham alta eficiência enquanto melhoram sua generalização para detecção unificada de anomalias, propomos um método simples, porém eficaz, que reconstrói características normais e restaura características anômalas com apenas Um Prompt de Imagem Normal (OneNIP). Em contraste com trabalhos anteriores, o OneNIP permite, pela primeira vez, reconstruir ou restaurar anomalias com apenas um prompt de imagem normal, aumentando efetivamente o desempenho da detecção unificada de anomalias. Além disso, propomos um refinador supervisionado que regride erros de reconstrução utilizando tanto imagens normais reais quanto imagens anômalas sintetizadas, o que melhora significativamente a segmentação de anomalias em nível de pixel. O OneNIP supera métodos anteriores em três benchmarks de detecção de anomalias industriais: MVTec, BTAD e VisA. O código e os modelos pré-treinados estão disponíveis em https://github.com/gaobb/OneNIP.
English
Unsupervised reconstruction networks using self-attention transformers have achieved state-of-the-art performance for multi-class (unified) anomaly detection with a single model. However, these self-attention reconstruction models primarily operate on target features, which may result in perfect reconstruction for both normal and anomaly features due to high consistency with context, leading to failure in detecting anomalies. Additionally, these models often produce inaccurate anomaly segmentation due to performing reconstruction in a low spatial resolution latent space. To enable reconstruction models enjoying high efficiency while enhancing their generalization for unified anomaly detection, we propose a simple yet effective method that reconstructs normal features and restores anomaly features with just One Normal Image Prompt (OneNIP). In contrast to previous work, OneNIP allows for the first time to reconstruct or restore anomalies with just one normal image prompt, effectively boosting unified anomaly detection performance. Furthermore, we propose a supervised refiner that regresses reconstruction errors by using both real normal and synthesized anomalous images, which significantly improves pixel-level anomaly segmentation. OneNIP outperforms previous methods on three industry anomaly detection benchmarks: MVTec, BTAD, and VisA. The code and pre-trained models are available at https://github.com/gaobb/OneNIP.
PDF52May 16, 2025