Vers une compréhension des défauts industriels en vocabulaire ouvert avec un jeu de données multimodale à grande échelle
Towards Open-Vocabulary Industrial Defect Understanding with a Large-Scale Multimodal Dataset
December 30, 2025
papers.authors: TsaiChing Ni, ZhenQi Chen, YuanFu Yang
cs.AI
papers.abstract
Nous présentons IMDD-1M, la première base de données industrielle multimodale à grande échelle pour les défauts, comprenant un million de paires image-texte alignées, conçue pour faire progresser l'apprentissage multimodal dans la fabrication et le contrôle qualité. IMDD-1M contient des défauts en haute résolution issus du monde réel, couvrant plus de 60 catégories de matériaux et 400 types de défauts, chacun accompagné d'annotations vérifiées par des experts et de descriptions textuelles fines détaillant la localisation, la sévérité et les attributs contextuels des défauts. Cette base de données permet un large éventail d'applications, incluant la classification, la segmentation, la recherche, la génération de légendes et la modélisation générative. En nous appuyant sur IMDD-1M, nous avons entraîné à partir de zéro un modèle de fondation vision-langage basé sur la diffusion, spécifiquement conçu pour les scénarios industriels. Ce modèle sert de fondation généralisable pouvant être efficacement adaptée à des domaines spécialisés via un réglage fin léger. Avec moins de 5 % des données spécifiques à la tâche requises par des modèles experts dédiés, il atteint des performances comparables, soulignant le potentiel de l'adaptation efficace en données des modèles de fondation pour l'inspection industrielle et la génération, ouvrant la voie à une intelligence manufacturière évolutive, adaptable au domaine et ancrée dans la connaissance.
English
We present IMDD-1M, the first large-scale Industrial Multimodal Defect Dataset comprising 1,000,000 aligned image-text pairs, designed to advance multimodal learning for manufacturing and quality inspection. IMDD-1M contains high-resolution real-world defects spanning over 60 material categories and more than 400 defect types, each accompanied by expert-verified annotations and fine-grained textual descriptions detailing defect location, severity, and contextual attributes. This dataset enables a wide spectrum of applications, including classification, segmentation, retrieval, captioning, and generative modeling. Building upon IMDD-1M, we train a diffusion-based vision-language foundation model from scratch, specifically tailored for industrial scenarios. The model serves as a generalizable foundation that can be efficiently adapted to specialized domains through lightweight fine-tuning. With less than 5% of the task-specific data required by dedicated expert models, it achieves comparable performance, highlighting the potential of data-efficient foundation model adaptation for industrial inspection and generation, paving the way for scalable, domain-adaptive, and knowledge-grounded manufacturing intelligence.