Verso una Comprensione dei Difetti Industriali a Vocabolario Aperto con un Dataset Multimodale su Larga Scala
Towards Open-Vocabulary Industrial Defect Understanding with a Large-Scale Multimodal Dataset
December 30, 2025
Autori: TsaiChing Ni, ZhenQi Chen, YuanFu Yang
cs.AI
Abstract
Presentiamo IMDD-1M, il primo dataset industriale multimodale su larga scala per difetti, comprendente 1.000.000 di coppie immagine-testo allineate, progettato per far avanzare l'apprendimento multimodale per la produzione e il controllo qualità. IMDD-1M contiene difetti del mondo reale ad alta risoluzione che abbracciano oltre 60 categorie di materiali e più di 400 tipi di difetti, ciascuno accompagnato da annotazioni verificate da esperti e descrizioni testuali granulari che dettagliano localizzazione, gravità e attributi contestuali del difetto. Questo dataset abilita un'ampia gamma di applicazioni, inclusi classificazione, segmentazione, retrieval, captioning e modellazione generativa. Basandoci su IMDD-1M, addestriamo da zero un modello fondazionale visione-linguaggio basato sulla diffusione, specificamente progettato per scenari industriali. Il modello funge da base generalizzabile che può essere efficientemente adattata a domini specializzati attraverso un fine-tuning leggero. Richiedendo meno del 5% dei dati specifici per task necessari a modelli esperti dedicati, raggiunge prestazioni comparabili, evidenziando il potenziale dell'adattamento efficiente dei modelli fondazionali per l'ispezione industriale e la generazione, aprendo la strada a un'intelligenza manifatturiera scalabile, adattabile al dominio e basata sulla conoscenza.
English
We present IMDD-1M, the first large-scale Industrial Multimodal Defect Dataset comprising 1,000,000 aligned image-text pairs, designed to advance multimodal learning for manufacturing and quality inspection. IMDD-1M contains high-resolution real-world defects spanning over 60 material categories and more than 400 defect types, each accompanied by expert-verified annotations and fine-grained textual descriptions detailing defect location, severity, and contextual attributes. This dataset enables a wide spectrum of applications, including classification, segmentation, retrieval, captioning, and generative modeling. Building upon IMDD-1M, we train a diffusion-based vision-language foundation model from scratch, specifically tailored for industrial scenarios. The model serves as a generalizable foundation that can be efficiently adapted to specialized domains through lightweight fine-tuning. With less than 5% of the task-specific data required by dedicated expert models, it achieves comparable performance, highlighting the potential of data-efficient foundation model adaptation for industrial inspection and generation, paving the way for scalable, domain-adaptive, and knowledge-grounded manufacturing intelligence.