ChatPaper.aiChatPaper

大規模マルチモーダルデータセットによるオープン語彙産業欠陥理解へのアプローチ

Towards Open-Vocabulary Industrial Defect Understanding with a Large-Scale Multimodal Dataset

December 30, 2025
著者: TsaiChing Ni, ZhenQi Chen, YuanFu Yang
cs.AI

要旨

本論文では、製造業と品質検査におけるマルチモーダル学習の進展を目的として、100万組の整列された画像-テキストペアから成る初の大規模産業用マルチモーダル欠陥データセット「IMDD-1M」を提案する。IMDD-1Mは60以上の材料カテゴリー、400以上の欠陥タイプにわたる高解像度の実世界欠陥画像を含み、各画像には専門家検証済みの注釈と、欠陥の位置、深刻度、文脈的属性を詳細に記述したテキストが付随する。本データセットは分類、セグメンテーション、検索、キャプション生成、生成モデリングなど幅広い応用を可能とする。IMDD-1Mに基づき、産業シナリオに特化して拡散モデルベースの視覚-言語基盤モデルをスクラッチから学習させた。このモデルは汎用的な基盤として機能し、軽量なファインチューニングにより専門領域へ効率的に適応可能である。専門家モデルに必要なタスク特定データの5%未満で同等の性能を達成し、産業検査と生成におけるデータ効率の良い基盤モデル適応の可能性を示す。これにより、スケーラブルでドメイン適応性があり、知識に基づいた製造インテリジェンスへの道を開くものである。
English
We present IMDD-1M, the first large-scale Industrial Multimodal Defect Dataset comprising 1,000,000 aligned image-text pairs, designed to advance multimodal learning for manufacturing and quality inspection. IMDD-1M contains high-resolution real-world defects spanning over 60 material categories and more than 400 defect types, each accompanied by expert-verified annotations and fine-grained textual descriptions detailing defect location, severity, and contextual attributes. This dataset enables a wide spectrum of applications, including classification, segmentation, retrieval, captioning, and generative modeling. Building upon IMDD-1M, we train a diffusion-based vision-language foundation model from scratch, specifically tailored for industrial scenarios. The model serves as a generalizable foundation that can be efficiently adapted to specialized domains through lightweight fine-tuning. With less than 5% of the task-specific data required by dedicated expert models, it achieves comparable performance, highlighting the potential of data-efficient foundation model adaptation for industrial inspection and generation, paving the way for scalable, domain-adaptive, and knowledge-grounded manufacturing intelligence.
PDF01January 10, 2026