ChatPaper.aiChatPaper

VID-AD: 시각적 주의 분산 환경에서의 이미지 수준 논리적 이상 감지를 위한 데이터셋

VID-AD: A Dataset for Image-Level Logical Anomaly Detection under Vision-Induced Distraction

March 14, 2026
저자: Hiroto Nakata, Yawen Zou, Shunsuke Sakai, Shun Maeda, Chunzhi Gu, Yijin Wei, Shangce Gao, Chao Zhang
cs.AI

초록

산업 검사에서의 논리적 이상 감지는 배경 복잡성, 조명 변화, 흐림 등과 같은 시각적 외관 변동으로 인해 여전히 어려운 과제로 남아 있습니다. 이러한 요인들은 규칙 수준 위반을 식별해야 하는 시각 중심 감지기의 주의를 자주 분산시킵니다. 그러나 기존 벤치마크는 이러한 방해 요인이 변동하는 동안 논리적 상태는 고정된 통제된 환경을 거의 제공하지 않습니다. 이러한 격차를 해결하기 위해 우리는 시각적 방해 조건 하에서 논리적 이상 감지를 위한 데이터셋인 VID-AD를 소개합니다. 이 데이터셋은 10개의 제조 시나리오와 5개의 촬영 조건으로 구성되어 있으며, 총 50개의 one-class 작업과 10,395개의 이미지를 포함합니다. 각 시나리오는 개수, 길이, 유형, 배치, 관계 중에서 선택된 두 가지 논리적 제약 조건으로 정의되며, 단일 제약 조건 위반과 복합 위반을 모두 포함하는 이상 사례를 제공합니다. 우리는 더 나아가 정상 이미지에서 생성된 텍스트 설명에만 의존하는 언어 기반 이상 감지 프레임워크를 제안합니다. 긍정 텍스트와 이러한 설명에서 합성된 모순 기반 부정 텍스트를 활용한 대조 학습을 통해, 우리의 방법은 저수준 특징보다는 논리적 속성을 포착하는 임베딩을 학습합니다. 다양한 실험을 통해 평가된 모든 설정에서 기준선 대비 일관된 성능 향상을 입증합니다. 데이터셋은 https://github.com/nkthiroto/VID-AD에서 이용 가능합니다.
English
Logical anomaly detection in industrial inspection remains challenging due to variations in visual appearance (e.g., background clutter, illumination shift, and blur), which often distract vision-centric detectors from identifying rule-level violations. However, existing benchmarks rarely provide controlled settings where logical states are fixed while such nuisance factors vary. To address this gap, we introduce VID-AD, a dataset for logical anomaly detection under vision-induced distraction. It comprises 10 manufacturing scenarios and five capture conditions, totaling 50 one-class tasks and 10,395 images. Each scenario is defined by two logical constraints selected from quantity, length, type, placement, and relation, with anomalies including both single-constraint and combined violations. We further propose a language-based anomaly detection framework that relies solely on text descriptions generated from normal images. Using contrastive learning with positive texts and contradiction-based negative texts synthesized from these descriptions, our method learns embeddings that capture logical attributes rather than low-level features. Extensive experiments demonstrate consistent improvements over baselines across the evaluated settings. The dataset is available at: https://github.com/nkthiroto/VID-AD.
PDF01March 21, 2026