VID-AD: 視覚的妨害下における画像レベル論理異常検出のためのデータセット
VID-AD: A Dataset for Image-Level Logical Anomaly Detection under Vision-Induced Distraction
March 14, 2026
著者: Hiroto Nakata, Yawen Zou, Shunsuke Sakai, Shun Maeda, Chunzhi Gu, Yijin Wei, Shangce Gao, Chao Zhang
cs.AI
要旨
工業検査における論理的異常検出は、視覚的外観の変動(例:背景の雑多さ、照明変化、ぼけ)により依然として課題が残っており、これらが視覚中心の検出器において規則レベルの違反の識別を妨げることが多い。しかし、既存のベンチマークでは、論理状態を固定したままこうした妨害要因を変化させた制御環境がほとんど提供されていない。この問題を解決するため、我々は視覚誘発妨害下での論理的異常検出データセット「VID-AD」を提案する。本データセットは10の製造シナリオと5つの撮影条件から構成され、合計50のワンクラスタスクと10,395枚の画像を含む。各シナリオは、数量、長さ、種類、配置、関係から選択された2つの論理的制約によって定義され、異常には単一制約違反と複合違反の両方が含まれる。さらに、正常画像から生成されたテキスト記述のみに依存する言語ベースの異常検出フレームワークを提案する。正例テキストとこれらの記述から合成された矛盾ベースの負例テキストを用いた対比学習により、低次元特徴ではなく論理的属性を捉える埋め込みを学習する。大規模な実験により、評価対象の全設定においてベースライン手法を一貫して上回る性能を示した。データセットは以下で公開されている:https://github.com/nkthiroto/VID-AD
English
Logical anomaly detection in industrial inspection remains challenging due to variations in visual appearance (e.g., background clutter, illumination shift, and blur), which often distract vision-centric detectors from identifying rule-level violations. However, existing benchmarks rarely provide controlled settings where logical states are fixed while such nuisance factors vary. To address this gap, we introduce VID-AD, a dataset for logical anomaly detection under vision-induced distraction. It comprises 10 manufacturing scenarios and five capture conditions, totaling 50 one-class tasks and 10,395 images. Each scenario is defined by two logical constraints selected from quantity, length, type, placement, and relation, with anomalies including both single-constraint and combined violations. We further propose a language-based anomaly detection framework that relies solely on text descriptions generated from normal images. Using contrastive learning with positive texts and contradiction-based negative texts synthesized from these descriptions, our method learns embeddings that capture logical attributes rather than low-level features. Extensive experiments demonstrate consistent improvements over baselines across the evaluated settings. The dataset is available at: https://github.com/nkthiroto/VID-AD.