VID-AD: Ein Datensatz für die logische Anomalieerkennung auf Bildebene unter visuell induzierter Ablenkung

Zusammenfassung

Die logische Anomalieerkennung in der industriellen Inspektion bleibt aufgrund von Variationen im visuellen Erscheinungsbild (z.B. Hintergrundunordnung, Beleuchtungsänderungen und Unschärfe) eine Herausforderung, da diese visuell-zentrierte Detektoren oft davon ablenken, Verstöße auf Regelebene zu identifizieren. Bestehende Benchmarks bieten jedoch selten kontrollierte Rahmenbedingungen, in denen logische Zustände festgelegt sind, während solche Störfaktoren variieren. Um diese Lücke zu schließen, stellen wir VID-AD vor, einen Datensatz zur logischen Anomalieerkennung unter visuell induzierten Ablenkungen. Er umfasst 10 Fertigungsszenarien und fünf Aufnahmebedingungen, insgesamt 50 One-Class-Aufgaben und 10.395 Bilder. Jedes Szenario wird durch zwei logische Constraints definiert, die aus Menge, Länge, Typ, Platzierung und Relation ausgewählt sind, wobei Anomalien sowohl einzelne Constraint-Verstöße als auch kombinierte Verstöße umfassen. Wir schlagen weiterhin ein sprachbasiertes Anomalieerkennungsframework vor, das ausschließlich auf Textbeschreibungen normaler Bilder basiert. Durch kontrastives Lernen mit positiven Texten und widerspruchsbasierten negativen Texten, die aus diesen Beschreibungen synthetisiert werden, lernt unsere Methode Embeddings, die logische Attribute anstelle von Low-Level-Merkmalen erfassen. Umfangreiche Experimente zeigen konsistente Verbesserungen gegenüber Baseline-Methoden in allen evaluierten Settings. Der Datensatz ist verfügbar unter: https://github.com/nkthiroto/VID-AD.

English

Logical anomaly detection in industrial inspection remains challenging due to variations in visual appearance (e.g., background clutter, illumination shift, and blur), which often distract vision-centric detectors from identifying rule-level violations. However, existing benchmarks rarely provide controlled settings where logical states are fixed while such nuisance factors vary. To address this gap, we introduce VID-AD, a dataset for logical anomaly detection under vision-induced distraction. It comprises 10 manufacturing scenarios and five capture conditions, totaling 50 one-class tasks and 10,395 images. Each scenario is defined by two logical constraints selected from quantity, length, type, placement, and relation, with anomalies including both single-constraint and combined violations. We further propose a language-based anomaly detection framework that relies solely on text descriptions generated from normal images. Using contrastive learning with positive texts and contradiction-based negative texts synthesized from these descriptions, our method learns embeddings that capture logical attributes rather than low-level features. Extensive experiments demonstrate consistent improvements over baselines across the evaluated settings. The dataset is available at: https://github.com/nkthiroto/VID-AD.

VID-AD: Ein Datensatz für die logische Anomalieerkennung auf Bildebene unter visuell induzierter Ablenkung

VID-AD: A Dataset for Image-Level Logical Anomaly Detection under Vision-Induced Distraction

Zusammenfassung

Support