К открытому словарю для понимания промышленных дефектов с помощью крупномасштабного мультимодального набора данных
Towards Open-Vocabulary Industrial Defect Understanding with a Large-Scale Multimodal Dataset
December 30, 2025
Авторы: TsaiChing Ni, ZhenQi Chen, YuanFu Yang
cs.AI
Аннотация
Мы представляем IMDD-1M — первую крупномасштабную промышленную мультимодальную базу данных дефектов, содержащую 1 000 000 согласованных пар "изображение-текст", созданную для развития мультимодального обучения в сфере производства и контроля качества. IMDD-1M включает высококачественные изображения реальных дефектов, охватывающих более 60 категорий материалов и свыше 400 типов дефектов, каждый из которых сопровождается экспертно проверенными аннотациями и детализированными текстовыми описаниями, фиксирующими локализацию дефектов, степень серьезности и контекстуальные атрибуты. Данный набор данных открывает возможности для широкого спектра приложений, включая классификацию, сегментацию, поиск, генерацию описаний и создание генеративных моделей. На основе IMDD-1M мы обучаем с нуля диффузионную визуально-языковую базовую модель, специально адаптированную для промышленных сценариев. Модель служит универсальным базовым решением, которое может быть эффективно доработано для узкоспециализированных областей с помощью легковесной тонкой настройки. Используя менее 5% данных, необходимых для специализированных экспертных моделей, наша модель демонстрирует сопоставимую производительность, что подчеркивает потенциал ресурсоэффективной адаптации базовых моделей для промышленного контроля и генерации, открывая путь к масштабируемому, доменно-адаптивному и основанному на знаниях производственному интеллекту.
English
We present IMDD-1M, the first large-scale Industrial Multimodal Defect Dataset comprising 1,000,000 aligned image-text pairs, designed to advance multimodal learning for manufacturing and quality inspection. IMDD-1M contains high-resolution real-world defects spanning over 60 material categories and more than 400 defect types, each accompanied by expert-verified annotations and fine-grained textual descriptions detailing defect location, severity, and contextual attributes. This dataset enables a wide spectrum of applications, including classification, segmentation, retrieval, captioning, and generative modeling. Building upon IMDD-1M, we train a diffusion-based vision-language foundation model from scratch, specifically tailored for industrial scenarios. The model serves as a generalizable foundation that can be efficiently adapted to specialized domains through lightweight fine-tuning. With less than 5% of the task-specific data required by dedicated expert models, it achieves comparable performance, highlighting the potential of data-efficient foundation model adaptation for industrial inspection and generation, paving the way for scalable, domain-adaptive, and knowledge-grounded manufacturing intelligence.