대규모 멀티모달 데이터셋을 활용한 개방형 어휘 산업 결함 이해
Towards Open-Vocabulary Industrial Defect Understanding with a Large-Scale Multimodal Dataset
December 30, 2025
저자: TsaiChing Ni, ZhenQi Chen, YuanFu Yang
cs.AI
초록
본 논문에서는 제조 및 품질 검사를 위한 멀티모달 학습 발전을 위해 설계된 최초의 대규모 산업용 멀티모달 결함 데이터셋인 IMDD-1M을 소개한다. IMDD-1M은 100만 개의 정렬된 이미지-텍스트 쌍으로 구성되며, 60개 이상의 소재 범주와 400여 가지 결함 유형에 걸친 고해상도 실제 결함 데이터를 포함한다. 각 데이터에는 전문가 검증 어노테이션과 결함 위치, 심각도, 상황 속성 등을 상세히 기술한 세분화된 텍스트 설명이 제공된다. 본 데이터셋은 분류, 분할, 검색, 캡션 생성, 생성형 모델링 등 다양한 응용 분야에 활용 가능하다. IMDD-1M을 기반으로 산업 현장에 특화된 디퓨전 기반 시각-언어 파운데이션 모델을 처음부터 학습시켰다. 해당 모델은 경량 파인튜닝을 통해 특화 도메인에 효율적으로 적용 가능한 일반화된 기반으로 작동한다. 전문 모델 대비 과제별 데이터 요구량의 5% 미만으로도 유사한 성능을 달성하여, 산업 검사 및 생성을 위한 데이터 효율적 파운데이션 모델 적용의 잠재력을 입증함으로써 확장성, 도메인 적응성, 지식 기반 제조 인텔리전스 구현의 길을 열었다.
English
We present IMDD-1M, the first large-scale Industrial Multimodal Defect Dataset comprising 1,000,000 aligned image-text pairs, designed to advance multimodal learning for manufacturing and quality inspection. IMDD-1M contains high-resolution real-world defects spanning over 60 material categories and more than 400 defect types, each accompanied by expert-verified annotations and fine-grained textual descriptions detailing defect location, severity, and contextual attributes. This dataset enables a wide spectrum of applications, including classification, segmentation, retrieval, captioning, and generative modeling. Building upon IMDD-1M, we train a diffusion-based vision-language foundation model from scratch, specifically tailored for industrial scenarios. The model serves as a generalizable foundation that can be efficiently adapted to specialized domains through lightweight fine-tuning. With less than 5% of the task-specific data required by dedicated expert models, it achieves comparable performance, highlighting the potential of data-efficient foundation model adaptation for industrial inspection and generation, paving the way for scalable, domain-adaptive, and knowledge-grounded manufacturing intelligence.