Auf dem Weg zu einem offenen Vokabular für das industrielle Fehlerverständnis mit einem groß angelegten multimodalen Datensatz
Towards Open-Vocabulary Industrial Defect Understanding with a Large-Scale Multimodal Dataset
December 30, 2025
papers.authors: TsaiChing Ni, ZhenQi Chen, YuanFu Yang
cs.AI
papers.abstract
Wir stellen IMDD-1M vor, den ersten groß angelegten industriellen multimodalen Defektdatensatz mit 1.000.000 ausgerichteten Bild-Text-Paaren, der entwickelt wurde, um multimodales Lernen für Fertigung und Qualitätskontrolle voranzutreiben. IMDD-1M enthält hochauflösende reale Defekte aus über 60 Materialkategorien und mehr als 400 Defekttypen, jeweils ergänzt durch expertengeprüfte Annotationen und detaillierte textuelle Beschreibungen zu Defektposition, Schweregrad und kontextuellen Attributen. Dieser Datensatz ermöglicht ein breites Anwendungsspektrum, einschließlich Klassifizierung, Segmentierung, Retrieval, Bildbeschreibung und generativer Modellierung. Aufbauend auf IMDD-1M trainieren wir ein diffusionsbasiertes Vision-Language-Foundation-Modell von Grund auf, das speziell für industrielle Szenarien ausgelegt ist. Das Modell dient als generalisierbare Basis, die durch leichtgewichtiges Fine-Tuning effizient an spezielle Domänen angepasst werden kann. Mit weniger als 5 % der aufgabenspezifischen Daten, die dedizierte Expertenmodelle benötigen, erreicht es vergleichbare Leistung, was das Potenzial der dateneffizienten Foundation-Modell-Adaption für industrielle Inspektion und Generierung unterstreicht und den Weg für skalierbare, domänenadaptive und wissensbasierte Fertigungsintelligenz ebnet.
English
We present IMDD-1M, the first large-scale Industrial Multimodal Defect Dataset comprising 1,000,000 aligned image-text pairs, designed to advance multimodal learning for manufacturing and quality inspection. IMDD-1M contains high-resolution real-world defects spanning over 60 material categories and more than 400 defect types, each accompanied by expert-verified annotations and fine-grained textual descriptions detailing defect location, severity, and contextual attributes. This dataset enables a wide spectrum of applications, including classification, segmentation, retrieval, captioning, and generative modeling. Building upon IMDD-1M, we train a diffusion-based vision-language foundation model from scratch, specifically tailored for industrial scenarios. The model serves as a generalizable foundation that can be efficiently adapted to specialized domains through lightweight fine-tuning. With less than 5% of the task-specific data required by dedicated expert models, it achieves comparable performance, highlighting the potential of data-efficient foundation model adaptation for industrial inspection and generation, paving the way for scalable, domain-adaptive, and knowledge-grounded manufacturing intelligence.