VID-AD: Um Conjunto de Dados para Detecção de Anomalias Lógicas a Nível de Imagem sob Distração Induzida pela Visão

Resumo

A detecção de anomalias lógicas na inspeção industrial continua a ser um desafio devido a variações na aparência visual (por exemplo, desordem do fundo, variação de iluminação e desfoque), que frequentemente distraem os detectores centrados na visão da identificação de violações a nível de regras. No entanto, os *benchmarks* existentes raramente fornecem configurações controladas onde os estados lógicos são fixos enquanto esses fatores de interferência variam. Para colmatar esta lacuna, introduzimos o VID-AD, um conjunto de dados para detecção de anomalias lógicas sob distração induzida por visão. Ele compreende 10 cenários de fabrico e cinco condições de captura, totalizando 50 tarefas de classe única e 10.395 imagens. Cada cenário é definido por duas restrições lógicas selecionadas entre quantidade, comprimento, tipo, posicionamento e relação, com as anomalias a incluírem violações de restrição única e violações combinadas. Propomos ainda uma estrutura de detecção de anomalias baseada em linguagem que depende exclusivamente de descrições textuais geradas a partir de imagens normais. Utilizando aprendizagem por contraste com textos positivos e textos negativos baseados em contradição sintetizados a partir destas descrições, o nosso método aprende incorporações (*embeddings*) que capturam atributos lógicos em vez de características de baixo nível. Experiências extensivas demonstram melhorias consistentes face às linhas de base em todas as configurações avaliadas. O conjunto de dados está disponível em: https://github.com/nkthiroto/VID-AD.

English

Logical anomaly detection in industrial inspection remains challenging due to variations in visual appearance (e.g., background clutter, illumination shift, and blur), which often distract vision-centric detectors from identifying rule-level violations. However, existing benchmarks rarely provide controlled settings where logical states are fixed while such nuisance factors vary. To address this gap, we introduce VID-AD, a dataset for logical anomaly detection under vision-induced distraction. It comprises 10 manufacturing scenarios and five capture conditions, totaling 50 one-class tasks and 10,395 images. Each scenario is defined by two logical constraints selected from quantity, length, type, placement, and relation, with anomalies including both single-constraint and combined violations. We further propose a language-based anomaly detection framework that relies solely on text descriptions generated from normal images. Using contrastive learning with positive texts and contradiction-based negative texts synthesized from these descriptions, our method learns embeddings that capture logical attributes rather than low-level features. Extensive experiments demonstrate consistent improvements over baselines across the evaluated settings. The dataset is available at: https://github.com/nkthiroto/VID-AD.

VID-AD: Um Conjunto de Dados para Detecção de Anomalias Lógicas a Nível de Imagem sob Distração Induzida pela Visão

VID-AD: A Dataset for Image-Level Logical Anomaly Detection under Vision-Induced Distraction

Resumo

Support