Lernen, Multi-Klassen-Anomalien mit nur einem normalen Bild zu erkennen
Learning to Detect Multi-class Anomalies with Just One Normal Image Prompt
May 14, 2025
Autoren: Bin-Bin Gao
cs.AI
Zusammenfassung
Unüberwachte Rekonstruktionsnetzwerke, die Selbstaufmerksamkeits-Transformer verwenden, haben Spitzenleistungen bei der mehrklassigen (vereinheitlichten) Anomalieerkennung mit einem einzigen Modell erzielt. Diese Selbstaufmerksamkeits-Rekonstruktionsmodelle arbeiten jedoch hauptsächlich mit Zielmerkmalen, was aufgrund der hohen Konsistenz mit dem Kontext zu einer perfekten Rekonstruktion sowohl für normale als auch für Anomalie-Merkmale führen kann, was wiederum das Erkennen von Anomalien erschwert. Darüber hinaus erzeugen diese Modelle oft ungenaue Anomaliesegmentierungen, da die Rekonstruktion in einem latenten Raum mit niedriger räumlicher Auflösung durchgeführt wird. Um Rekonstruktionsmodelle effizient zu gestalten und gleichzeitig ihre Generalisierung für die vereinheitlichte Anomalieerkennung zu verbessern, schlagen wir eine einfache, aber effektive Methode vor, die normale Merkmale rekonstruiert und Anomalie-Merkmale mit nur einem normalen Bildprompt (OneNIP) wiederherstellt. Im Gegensatz zu früheren Arbeiten ermöglicht OneNIP erstmals die Rekonstruktion oder Wiederherstellung von Anomalien mit nur einem normalen Bildprompt, was die Leistung der vereinheitlichten Anomalieerkennung erheblich steigert. Darüber hinaus schlagen wir einen überwachten Verfeinerer vor, der Rekonstruktionsfehler durch die Verwendung sowohl realer normaler als auch synthetisierter anomaler Bilder regressiert, was die pixelgenaue Anomaliesegmentierung deutlich verbessert. OneNIP übertrifft bisherige Methoden auf drei industriellen Anomalieerkennungs-Benchmarks: MVTec, BTAD und VisA. Der Code und die vortrainierten Modelle sind unter https://github.com/gaobb/OneNIP verfügbar.
English
Unsupervised reconstruction networks using self-attention transformers have
achieved state-of-the-art performance for multi-class (unified) anomaly
detection with a single model. However, these self-attention reconstruction
models primarily operate on target features, which may result in perfect
reconstruction for both normal and anomaly features due to high consistency
with context, leading to failure in detecting anomalies. Additionally, these
models often produce inaccurate anomaly segmentation due to performing
reconstruction in a low spatial resolution latent space. To enable
reconstruction models enjoying high efficiency while enhancing their
generalization for unified anomaly detection, we propose a simple yet effective
method that reconstructs normal features and restores anomaly features with
just One Normal Image Prompt (OneNIP). In contrast to previous work, OneNIP
allows for the first time to reconstruct or restore anomalies with just one
normal image prompt, effectively boosting unified anomaly detection
performance. Furthermore, we propose a supervised refiner that regresses
reconstruction errors by using both real normal and synthesized anomalous
images, which significantly improves pixel-level anomaly segmentation. OneNIP
outperforms previous methods on three industry anomaly detection benchmarks:
MVTec, BTAD, and VisA. The code and pre-trained models are available at
https://github.com/gaobb/OneNIP.Summary
AI-Generated Summary