VID-AD: Un Conjunto de Datos para la Detección de Anomalías Lógicas a Nivel de Imagen bajo Distracción Inducida por Visión

Resumen

La detección de anomalías lógicas en inspección industrial sigue siendo un reto debido a las variaciones en la apariencia visual (por ejemplo, desorden del fondo, cambios de iluminación y desenfoque), que a menudo distraen a los detectores centrados en visión de identificar violaciones a nivel de reglas. Sin embargo, los puntos de referencia existentes rara vez proporcionan entornos controlados donde los estados lógicos se mantengan fijos mientras varían dichos factores de perturbación. Para abordar esta brecha, presentamos VID-AD, un conjunto de datos para la detección de anomalías lógicas bajo distracción inducida por visión. Comprende 10 escenarios de fabricación y cinco condiciones de captura, totalizando 50 tareas de clase única y 10.395 imágenes. Cada escenario se define mediante dos restricciones lógicas seleccionadas entre cantidad, longitud, tipo, ubicación y relación, incluyendo las anomalías tanto violaciones de restricción única como combinadas. Además, proponemos un marco de detección de anomalías basado en lenguaje que depende únicamente de descripciones textuales generadas a partir de imágenes normales. Utilizando aprendizaje contrastivo con textos positivos y textos negativos basados en contradicción sintetizados a partir de estas descripciones, nuestro método aprende representaciones embebidas que capturan atributos lógicos en lugar de características de bajo nivel. Experimentos exhaustivos demuestran mejoras consistentes respecto a los baselines en todos los entornos evaluados. El conjunto de datos está disponible en: https://github.com/nkthiroto/VID-AD.

English

Logical anomaly detection in industrial inspection remains challenging due to variations in visual appearance (e.g., background clutter, illumination shift, and blur), which often distract vision-centric detectors from identifying rule-level violations. However, existing benchmarks rarely provide controlled settings where logical states are fixed while such nuisance factors vary. To address this gap, we introduce VID-AD, a dataset for logical anomaly detection under vision-induced distraction. It comprises 10 manufacturing scenarios and five capture conditions, totaling 50 one-class tasks and 10,395 images. Each scenario is defined by two logical constraints selected from quantity, length, type, placement, and relation, with anomalies including both single-constraint and combined violations. We further propose a language-based anomaly detection framework that relies solely on text descriptions generated from normal images. Using contrastive learning with positive texts and contradiction-based negative texts synthesized from these descriptions, our method learns embeddings that capture logical attributes rather than low-level features. Extensive experiments demonstrate consistent improvements over baselines across the evaluated settings. The dataset is available at: https://github.com/nkthiroto/VID-AD.

VID-AD: Un Conjunto de Datos para la Detección de Anomalías Lógicas a Nivel de Imagen bajo Distracción Inducida por Visión

VID-AD: A Dataset for Image-Level Logical Anomaly Detection under Vision-Induced Distraction

Resumen

Support