ChatPaper.aiChatPaper

VID-AD: Набор данных для обнаружения логических аномалий на уровне изображений в условиях визуальных помех

VID-AD: A Dataset for Image-Level Logical Anomaly Detection under Vision-Induced Distraction

March 14, 2026
Авторы: Hiroto Nakata, Yawen Zou, Shunsuke Sakai, Shun Maeda, Chunzhi Gu, Yijin Wei, Shangce Gao, Chao Zhang
cs.AI

Аннотация

Обнаружение логических аномалий при промышленном контроле остается сложной задачей из-за вариаций визуального представления (например, загроможденного фона, изменения освещения и размытия), которые часто отвлекают визуально-ориентированные детекторы от выявления нарушений на уровне правил. Однако существующие эталонные наборы данных редко предоставляют контролируемые условия, в которых логические состояния фиксированы, а мешающие факторы варьируются. Для устранения этого пробела мы представляем VID-AD — набор данных для обнаружения логических аномалий при визуальных помехах. Он включает 10 производственных сценариев и пять условий съемки, в сумме составляя 50 задач одноклассовой классификации и 10 395 изображений. Каждый сценарий определяется двумя логическими ограничениями, выбранными из количества, длины, типа, размещения и отношения, причем аномалии включают как одиночные, так и комбинированные нарушения ограничений. Мы также предлагаем основанную на языке систему обнаружения аномалий, которая полагается исключительно на текстовые описания, сгенерированные из изображений без аномалий. Используя контрастное обучение с позитивными текстами и негативными текстами на основе противоречий, синтезированными из этих описаний, наш метод изучает эмбеддинги, которые фиксируют логические атрибуты, а не низкоуровневые признаки. Многочисленные эксперименты демонстрируют устойчивое улучшение результатов по сравнению с базовыми методами во всех оцениваемых условиях. Набор данных доступен по адресу: https://github.com/nkthiroto/VID-AD.
English
Logical anomaly detection in industrial inspection remains challenging due to variations in visual appearance (e.g., background clutter, illumination shift, and blur), which often distract vision-centric detectors from identifying rule-level violations. However, existing benchmarks rarely provide controlled settings where logical states are fixed while such nuisance factors vary. To address this gap, we introduce VID-AD, a dataset for logical anomaly detection under vision-induced distraction. It comprises 10 manufacturing scenarios and five capture conditions, totaling 50 one-class tasks and 10,395 images. Each scenario is defined by two logical constraints selected from quantity, length, type, placement, and relation, with anomalies including both single-constraint and combined violations. We further propose a language-based anomaly detection framework that relies solely on text descriptions generated from normal images. Using contrastive learning with positive texts and contradiction-based negative texts synthesized from these descriptions, our method learns embeddings that capture logical attributes rather than low-level features. Extensive experiments demonstrate consistent improvements over baselines across the evaluated settings. The dataset is available at: https://github.com/nkthiroto/VID-AD.
PDF01March 21, 2026