ChatPaper.aiChatPaper

Naar Open-Vocabularium Industrieel Defectbegrip met een Grootschalige Multimodale Dataset

Towards Open-Vocabulary Industrial Defect Understanding with a Large-Scale Multimodal Dataset

December 30, 2025
Auteurs: TsaiChing Ni, ZhenQi Chen, YuanFu Yang
cs.AI

Samenvatting

Wij presenteren IMDD-1M, de eerste grootschalige industriële multimodale defectendataset met 1.000.000 uitgelijnde beeld-tekstparen, ontworpen om multimodaal leren voor productie en kwaliteitsinspectie vooruit te helpen. IMDD-1M bevat hoogwaardige real-world defecten uit meer dan 60 materiaalcategorieën en 400 defecttypen, elk voorzien van expertgeverifieerde annotaties en gedetailleerde tekstuele beschrijvingen over defectlocatie, ernst en contextuele kenmerken. Deze dataset maakt een breed scala aan toepassingen mogelijk, waaronder classificatie, segmentatie, retrieval, beeldbeschrijving en generatieve modellering. Gebaseerd op IMDD-1M trainen we een op diffusie gebaseerd vision-language foundation model vanaf nul, specifiek toegesneden op industriële scenario's. Het model fungeert als een generaliseerbare basis die efficiënt kan worden aangepast aan gespecialiseerde domeinen via lichtgewicht fine-tuning. Met minder dan 5% van de taakspecifieke data die gespecialiseerde expertmodellen vereisen, bereikt het vergelijkbare prestaties. Dit onderstreept het potentieel van data-efficiënte aanpassing van foundation modellen voor industriële inspectie en generatie, en baant de weg naar schaalbare, domein-adaptieve en kennisgebaseerde productie-intelligentie.
English
We present IMDD-1M, the first large-scale Industrial Multimodal Defect Dataset comprising 1,000,000 aligned image-text pairs, designed to advance multimodal learning for manufacturing and quality inspection. IMDD-1M contains high-resolution real-world defects spanning over 60 material categories and more than 400 defect types, each accompanied by expert-verified annotations and fine-grained textual descriptions detailing defect location, severity, and contextual attributes. This dataset enables a wide spectrum of applications, including classification, segmentation, retrieval, captioning, and generative modeling. Building upon IMDD-1M, we train a diffusion-based vision-language foundation model from scratch, specifically tailored for industrial scenarios. The model serves as a generalizable foundation that can be efficiently adapted to specialized domains through lightweight fine-tuning. With less than 5% of the task-specific data required by dedicated expert models, it achieves comparable performance, highlighting the potential of data-efficient foundation model adaptation for industrial inspection and generation, paving the way for scalable, domain-adaptive, and knowledge-grounded manufacturing intelligence.
PDF33March 17, 2026