VID-AD: Un Dataset per il Rilevamento di Anomalie Logiche a Livello di Immagine in Condizioni di Distrazione Visiva Indotta

Abstract

La rilevazione di anomalie logiche nell'ispezione industriale rimane complessa a causa delle variazioni nell'aspetto visivo (ad esempio, disordine dello sfondo, cambiamenti d'illuminazione e sfocatura), che spesso distraggono i rilevatori basati sulla visione dall'identificare violazioni a livello di regole. Tuttavia, i benchmark esistenti raramente forniscono impostazioni controllate in cui gli stati logici sono fissi mentre questi fattori di disturbo variano. Per colmare questa lacuna, presentiamo VID-AD, un dataset per la rilevazione di anomalie logiche sotto distrazione indotta dalla visione. Comprende 10 scenari manifatturieri e cinque condizioni di acquisizione, per un totale di 50 task one-class e 10.395 immagini. Ogni scenario è definito da due vincoli logici selezionati tra quantità, lunghezza, tipo, posizionamento e relazione, con anomalie che includono violazioni singole e combinate dei vincoli. Proponiamo inoltre un framework per la rilevazione di anomalie basato sul linguaggio che si affida esclusivamente a descrizioni testuali generate da immagini normali. Utilizzando l'apprendimento per contrasto con testi positivi e testi negativi basati su contraddizioni sintetizzati da queste descrizioni, il nostro metodo apprende embedding che catturano attributi logici anziché caratteristiche di basso livello. Esperimenti estensivi dimostrano miglioramenti consistenti rispetto ai baseline in tutte le impostazioni valutate. Il dataset è disponibile all'indirizzo: https://github.com/nkthiroto/VID-AD.

English

Logical anomaly detection in industrial inspection remains challenging due to variations in visual appearance (e.g., background clutter, illumination shift, and blur), which often distract vision-centric detectors from identifying rule-level violations. However, existing benchmarks rarely provide controlled settings where logical states are fixed while such nuisance factors vary. To address this gap, we introduce VID-AD, a dataset for logical anomaly detection under vision-induced distraction. It comprises 10 manufacturing scenarios and five capture conditions, totaling 50 one-class tasks and 10,395 images. Each scenario is defined by two logical constraints selected from quantity, length, type, placement, and relation, with anomalies including both single-constraint and combined violations. We further propose a language-based anomaly detection framework that relies solely on text descriptions generated from normal images. Using contrastive learning with positive texts and contradiction-based negative texts synthesized from these descriptions, our method learns embeddings that capture logical attributes rather than low-level features. Extensive experiments demonstrate consistent improvements over baselines across the evaluated settings. The dataset is available at: https://github.com/nkthiroto/VID-AD.

VID-AD: Un Dataset per il Rilevamento di Anomalie Logiche a Livello di Immagine in Condizioni di Distrazione Visiva Indotta

VID-AD: A Dataset for Image-Level Logical Anomaly Detection under Vision-Induced Distraction

Abstract

Support