IndustryBench-MIPU: Benchmarking der Mehrbild-Attributwertextraktion für industrielle Produkte

Zusammenfassung

Industrieprodukte wie Ventile und Leistungsschalter werden durch dichte technische Spezifikationen definiert, die Beschaffung, Kompatibilität und Sicherheit über Lieferketten hinweg regeln. Diese Spezifikationen sind über mehrere heterogene Produktbilder verteilt, darunter Spezifikationstabellen, Typenschilder und technische Zeichnungen. Ob Multimodale Große Sprachmodelle (MLLMs) sie zuverlässig extrahieren können, ist jedoch noch wenig erforscht. Um diese Lücke zu schließen, führen wir IndustryBench-MIPU ein, den ersten groß angelegten Benchmark für das multimodale Verständnis industrieller Produkte, der auf der strukturierten Attributextraktion basiert – der Wiederherstellung von Eigenschaft-Wert-Paaren aus Produktbildern. Diese Aufgabe erfordert gleichzeitig Texterkennung aus Spezifikationstabellen und Typenschildern, visuelles Verständnis technischer Zeichnungen, Fachwissen zur Dekodierung industrieller Terminologie sowie bildübergreifende Evidenzintegration zur Zusammenführung verstreuter Spezifikationen. Konkret umfasst der Benchmark 4.559 Produkte über 27.652 Bilder mit 103.703 Annotationen aus 18 Industriekategorien, die durch Multi-Modell-Konsens und dreistufige Qualitätssicherung erstellt wurden. Die Evaluierung von neun MLLMs unter Einzelbild- und produktspezifischer Mehrbildkonfiguration zeigt eine deutliche Vollständigkeitslücke: Die Modelle erzielen eine hohe Präzision (86–94 %), aber das beste Modell extrahiert nur 49,9 % der produktspezifischen Attribute; der Übergang von Einzelbild- zur Mehrbildextraktion verursacht einen Rückgang des Recall um 15–34 Prozentpunkte. Die Vollständigkeit bei Mehrbildern, nicht die Genauigkeit bei Einzelbildern, stellt den zentralen Engpass dar. Datensatz und Code sind öffentlich verfügbar.

English

Industrial products such as valves and circuit breakers are defined by dense technical specifications that govern procurement, compatibility, and safety across supply chains. These specifications are scattered across multiple heterogeneous product images, including specification tables, nameplates, and technical drawings, yet whether Multimodal Large Language Models (MLLMs) can reliably recover them remains underexplored. To fill this gap, we introduce IndustryBench-MIPU, the first large-scale benchmark for multi-image industrial product understanding, built around structured attribute extraction -- recovering property-value pairs from product images. This task jointly probes text recognition on specification tables and nameplates, visual reasoning over technical drawings, domain knowledge to decode industrial terminology, and cross-image evidence integration to assemble scattered specifications. Concretely, the benchmark comprises 4,559 products across 27,652 images with 103,703 annotations spanning 18 industrial categories, constructed through multi-model consensus and three-tier quality assurance. Evaluating nine MLLMs under both single-image and product-level multi-image settings reveals a stark completeness gap: models achieve high precision (86--94%) but the best recovers only 49.9% of product-level attributes; moving from single-image to multi-image extraction costs 15--34 percentage points of recall. Multi-image completeness, not single-image accuracy, is the core bottleneck. Dataset and code are publicly available.