VID-AD: Een dataset voor logische anomaliedetectie op beeldniveau onder visueel geïnduceerde afleiding

Samenvatting

Logische anomaliedetectie in industriële inspectie blijft een uitdaging door variaties in visuele verschijning (bijvoorbeeld achtergrondrommel, belichtingsverschillen en onscherpte), die visiegerichte detectoren vaak afleiden van het identificeren van regeloverschrijdingen. Bestaande benchmarks bieden echter zelden gecontroleerde omstandigheden waarin logische staten constant zijn terwijl dergelijke storende factoren variëren. Om deze leemte op te vullen, introduceren we VID-AD, een dataset voor logische anomaliedetectie onder visueel geïnduceerde afleiding. Deze omvat 10 productiescenario's en vijf opnamecondities, in totaal 50 éénklassetaken en 10.395 afbeeldingen. Elk scenario wordt gedefinieerd door twee logische beperkingen geselecteerd uit hoeveelheid, lengte, type, plaatsing en relatie, waarbij anomalieën zowel enkelvoudige als gecombineerde overtredingen omvatten. Wij stellen verder een op taal gebaseerd anomaliedetectiekader voor dat uitsluitend vertrouwt op tekstbeschrijvingen gegenereerd uit normale afbeeldingen. Door contrastief leren met positieve teksten en op tegenstrijdigheid gebaseerde negatieve teksten gesynthetiseerd uit deze beschrijvingen, leert onze methode embeddings aan die logische attributen vastleggen in plaats van laagwaardige kenmerken. Uitgebreide experimenten tonen consistente verbeteringen ten opzichte van basislijnen in alle geëvalueerde settings. De dataset is beschikbaar op: https://github.com/nkthiroto/VID-AD.

English

Logical anomaly detection in industrial inspection remains challenging due to variations in visual appearance (e.g., background clutter, illumination shift, and blur), which often distract vision-centric detectors from identifying rule-level violations. However, existing benchmarks rarely provide controlled settings where logical states are fixed while such nuisance factors vary. To address this gap, we introduce VID-AD, a dataset for logical anomaly detection under vision-induced distraction. It comprises 10 manufacturing scenarios and five capture conditions, totaling 50 one-class tasks and 10,395 images. Each scenario is defined by two logical constraints selected from quantity, length, type, placement, and relation, with anomalies including both single-constraint and combined violations. We further propose a language-based anomaly detection framework that relies solely on text descriptions generated from normal images. Using contrastive learning with positive texts and contradiction-based negative texts synthesized from these descriptions, our method learns embeddings that capture logical attributes rather than low-level features. Extensive experiments demonstrate consistent improvements over baselines across the evaluated settings. The dataset is available at: https://github.com/nkthiroto/VID-AD.

VID-AD: Een dataset voor logische anomaliedetectie op beeldniveau onder visueel geïnduceerde afleiding

VID-AD: A Dataset for Image-Level Logical Anomaly Detection under Vision-Induced Distraction

Samenvatting

Support