Rumo à Compreensão de Defeitos Industriais com Vocabulário Aberto através de um Conjunto de Dados Multimodal em Larga Escala

Resumo

Apresentamos o IMDD-1M, o primeiro conjunto de dados de grande escala para Defeitos Industriais Multimodais, composto por 1.000.000 de pares imagem-texto alinhados, concebido para avançar a aprendizagem multimodal na manufatura e inspeção de qualidade. O IMDD-1M contém defeitos do mundo real em alta resolução, abrangendo mais de 60 categorias de materiais e mais de 400 tipos de defeitos, cada um acompanhado por anotações validadas por especialistas e descrições textuais detalhadas que especificam a localização, severidade e atributos contextuais do defeito. Este conjunto de dados permite uma ampla gama de aplicações, incluindo classificação, segmentação, recuperação, legendagem e modelagem generativa. Com base no IMDD-1M, treinámos um modelo de base visão-linguagem baseado em difusão a partir do zero, especificamente adaptado para cenários industriais. O modelo serve como uma base generalizável que pode ser eficientemente adaptada a domínios especializados através de *fine-tuning* leve. Utilizando menos de 5% dos dados específicos da tarefa exigidos por modelos especializados dedicados, atinge um desempenho comparável, destacando o potencial da adaptação eficiente de dados em modelos de base para inspeção industrial e geração, abrindo caminho para uma inteligência de manufatura escalável, adaptativa ao domínio e fundamentada em conhecimento.

English

We present IMDD-1M, the first large-scale Industrial Multimodal Defect Dataset comprising 1,000,000 aligned image-text pairs, designed to advance multimodal learning for manufacturing and quality inspection. IMDD-1M contains high-resolution real-world defects spanning over 60 material categories and more than 400 defect types, each accompanied by expert-verified annotations and fine-grained textual descriptions detailing defect location, severity, and contextual attributes. This dataset enables a wide spectrum of applications, including classification, segmentation, retrieval, captioning, and generative modeling. Building upon IMDD-1M, we train a diffusion-based vision-language foundation model from scratch, specifically tailored for industrial scenarios. The model serves as a generalizable foundation that can be efficiently adapted to specialized domains through lightweight fine-tuning. With less than 5% of the task-specific data required by dedicated expert models, it achieves comparable performance, highlighting the potential of data-efficient foundation model adaptation for industrial inspection and generation, paving the way for scalable, domain-adaptive, and knowledge-grounded manufacturing intelligence.

Rumo à Compreensão de Defeitos Industriais com Vocabulário Aberto através de um Conjunto de Dados Multimodal em Larga Escala

Towards Open-Vocabulary Industrial Defect Understanding with a Large-Scale Multimodal Dataset

Resumo

Support