IndustryBench-MIPU: Бенчмаркинг извлечения значений атрибутов из нескольких изображений для промышленных изделий

Аннотация

Промышленные изделия, такие как клапаны и автоматические выключатели, определяются детальными техническими спецификациями, которые регулируют закупки, совместимость и безопасность в цепочках поставок. Эти спецификации разбросаны по множеству гетерогенных изображений продуктов, включая таблицы спецификаций, паспортные таблички и технические чертежи, однако остается малоизученным, могут ли мультимодальные большие языковые модели (MLLM) надежно их восстанавливать. Для заполнения этого пробела мы представляем IndustryBench-MIPU — первый крупномасштабный бенчмарк для понимания многократных изображений промышленных продуктов, построенный на структурированном извлечении атрибутов, то есть восстановлении пар «свойство—значение» из изображений продукта. Эта задача одновременно исследует распознавание текста на таблицах спецификаций и паспортных табличках, визуальное рассуждение по техническим чертежам, предметные знания для декодирования промышленной терминологии и интеграцию свидетельств из разных изображений для сборки разрозненных спецификаций. Конкретно, бенчмарк включает 4 559 продуктов, представленных на 27 652 изображениях, с 103 703 аннотациями, охватывающими 18 промышленных категорий, и создан на основе консенсуса нескольких моделей и трехуровневого контроля качества. Оценка девяти MLLM как в режиме одного изображения, так и в режиме многократных изображений на уровне продукта выявляет резкий разрыв по полноте: модели достигают высокой точности (86–94 %), но лучшая из них восстанавливает лишь 49,9 % атрибутов на уровне продукта; переход от извлечения из одного изображения к многократным изображениям приводит к потере 15–34 процентных пункта по полноте. Полнота для многократных изображений, а не точность для одного изображения, является основным узким местом. Набор данных и код находятся в открытом доступе.

English

Industrial products such as valves and circuit breakers are defined by dense technical specifications that govern procurement, compatibility, and safety across supply chains. These specifications are scattered across multiple heterogeneous product images, including specification tables, nameplates, and technical drawings, yet whether Multimodal Large Language Models (MLLMs) can reliably recover them remains underexplored. To fill this gap, we introduce IndustryBench-MIPU, the first large-scale benchmark for multi-image industrial product understanding, built around structured attribute extraction -- recovering property-value pairs from product images. This task jointly probes text recognition on specification tables and nameplates, visual reasoning over technical drawings, domain knowledge to decode industrial terminology, and cross-image evidence integration to assemble scattered specifications. Concretely, the benchmark comprises 4,559 products across 27,652 images with 103,703 annotations spanning 18 industrial categories, constructed through multi-model consensus and three-tier quality assurance. Evaluating nine MLLMs under both single-image and product-level multi-image settings reveals a stark completeness gap: models achieve high precision (86--94%) but the best recovers only 49.9% of product-level attributes; moving from single-image to multi-image extraction costs 15--34 percentage points of recall. Multi-image completeness, not single-image accuracy, is the core bottleneck. Dataset and code are publicly available.