ChatPaper.aiChatPaper

Hacia una Comprensión de Defectos Industriales con Vocabulario Abierto mediante un Conjunto de Datos Multimodal a Gran Escala

Towards Open-Vocabulary Industrial Defect Understanding with a Large-Scale Multimodal Dataset

December 30, 2025
Autores: TsaiChing Ni, ZhenQi Chen, YuanFu Yang
cs.AI

Resumen

Presentamos IMDD-1M, el primer conjunto de datos a gran escala de Defectos Multimodales Industriales que comprende 1.000.000 de pares alineados de imagen-texto, diseñado para impulsar el aprendizaje multimodal en manufactura e inspección de calidad. IMDD-1M contiene defectos del mundo real en alta resolución que abarcan más de 60 categorías de materiales y más de 400 tipos de defectos, cada uno acompañado de anotaciones verificadas por expertos y descripciones textuales detalladas que especifican la ubicación, severidad y atributos contextuales del defecto. Este conjunto de datos permite un amplio espectro de aplicaciones, incluyendo clasificación, segmentación, recuperación, generación de descripciones y modelado generativo. Basándonos en IMDD-1M, entrenamos desde cero un modelo base de visión y lenguaje basado en difusión, específicamente adaptado para escenarios industriales. El modelo sirve como base generalizable que puede adaptarse eficientemente a dominios especializados mediante ajuste fino ligero. Requiriendo menos del 5% de los datos específicos por tarea que necesitan los modelos expertos dedicados, logra un rendimiento comparable, destacando el potencial de la adaptación eficiente de modelos base para inspección y generación industrial, allanando el camino para una inteligencia de manufactura escalable, adaptable al dominio y basada en conocimiento.
English
We present IMDD-1M, the first large-scale Industrial Multimodal Defect Dataset comprising 1,000,000 aligned image-text pairs, designed to advance multimodal learning for manufacturing and quality inspection. IMDD-1M contains high-resolution real-world defects spanning over 60 material categories and more than 400 defect types, each accompanied by expert-verified annotations and fine-grained textual descriptions detailing defect location, severity, and contextual attributes. This dataset enables a wide spectrum of applications, including classification, segmentation, retrieval, captioning, and generative modeling. Building upon IMDD-1M, we train a diffusion-based vision-language foundation model from scratch, specifically tailored for industrial scenarios. The model serves as a generalizable foundation that can be efficiently adapted to specialized domains through lightweight fine-tuning. With less than 5% of the task-specific data required by dedicated expert models, it achieves comparable performance, highlighting the potential of data-efficient foundation model adaptation for industrial inspection and generation, paving the way for scalable, domain-adaptive, and knowledge-grounded manufacturing intelligence.
PDF01January 10, 2026