VID-AD : Un jeu de données pour la détection d'anomalies logiques au niveau de l'image sous distraction induite par la vision
VID-AD: A Dataset for Image-Level Logical Anomaly Detection under Vision-Induced Distraction
March 14, 2026
Auteurs: Hiroto Nakata, Yawen Zou, Shunsuke Sakai, Shun Maeda, Chunzhi Gu, Yijin Wei, Shangce Gao, Chao Zhang
cs.AI
Résumé
La détection d'anomalies logiques dans l'inspection industrielle reste difficile en raison des variations d'apparence visuelle (par exemple, encombrement du fond, variation d'éclairage et flou), qui détournent souvent les détecteurs axés sur la vision de l'identification des violations au niveau des règles. Cependant, les benchmarks existants proposent rarement des configurations contrôlées où les états logiques sont fixes tandis que ces facteurs parasites varient. Pour combler cette lacune, nous présentons VID-AD, un ensemble de données pour la détection d'anomalies logiques sous distraction induite par la vision. Il comprend 10 scénarios manufacturiers et cinq conditions de capture, totalisant 50 tâches à une classe et 10 395 images. Chaque scénario est défini par deux contraintes logiques sélectionnées parmi quantité, longueur, type, placement et relation, les anomalies incluant à la fois des violations simples et combinées des contraintes. Nous proposons en outre un cadre de détection d'anomalies basé sur le langage qui repose uniquement sur des descriptions textuelles générées à partir d'images normales. En utilisant l'apprentissage par contraste avec des textes positifs et des textes négatifs basés sur la contradiction synthétisés à partir de ces descriptions, notre méthode apprend des plongements qui capturent les attributs logiques plutôt que les caractéristiques de bas niveau. Des expériences approfondies démontrent des améliorations constantes par rapport aux lignes de base dans toutes les configurations évaluées. Le jeu de données est disponible à l'adresse : https://github.com/nkthiroto/VID-AD.
English
Logical anomaly detection in industrial inspection remains challenging due to variations in visual appearance (e.g., background clutter, illumination shift, and blur), which often distract vision-centric detectors from identifying rule-level violations. However, existing benchmarks rarely provide controlled settings where logical states are fixed while such nuisance factors vary. To address this gap, we introduce VID-AD, a dataset for logical anomaly detection under vision-induced distraction. It comprises 10 manufacturing scenarios and five capture conditions, totaling 50 one-class tasks and 10,395 images. Each scenario is defined by two logical constraints selected from quantity, length, type, placement, and relation, with anomalies including both single-constraint and combined violations. We further propose a language-based anomaly detection framework that relies solely on text descriptions generated from normal images. Using contrastive learning with positive texts and contradiction-based negative texts synthesized from these descriptions, our method learns embeddings that capture logical attributes rather than low-level features. Extensive experiments demonstrate consistent improvements over baselines across the evaluated settings. The dataset is available at: https://github.com/nkthiroto/VID-AD.