IndustryBench-MIPU : Benchmarking de l'extraction de valeurs d'attributs multi-images pour les produits industriels

Résumé

Les produits industriels tels que les vannes et les disjoncteurs sont définis par des spécifications techniques denses qui régissent l'approvisionnement, la compatibilité et la sécurité à travers les chaînes d'approvisionnement. Ces spécifications sont dispersées dans de multiples images de produits hétérogènes, incluant des tableaux de spécifications, des plaques signalétiques et des dessins techniques, mais la question de savoir si les modèles de langage multimodaux à grande échelle (MLLMs) peuvent les récupérer de manière fiable reste peu explorée. Pour combler cette lacune, nous présentons IndustryBench-MIPU, le premier benchmark à grande échelle pour la compréhension multi-image de produits industriels, construit autour de l'extraction structurée d'attributs — la récupération de paires propriété-valeur à partir d'images de produits. Cette tâche sollicite conjointement la reconnaissance de texte sur les tableaux de spécifications et les plaques signalétiques, le raisonnement visuel sur les dessins techniques, les connaissances du domaine pour décoder la terminologie industrielle, et l'intégration de preuves inter-images pour assembler des spécifications dispersées. Concrètement, le benchmark comprend 4 559 produits répartis sur 27 652 images avec 103 703 annotations couvrant 18 catégories industrielles, construit par consensus multi-modèle et assurance qualité à trois niveaux. L'évaluation de neuf MLLMs dans des contextes d'image unique et d'images multiples au niveau produit révèle un écart de complétude frappant : les modèles atteignent une précision élevée (86–94 %) mais le meilleur ne récupère que 49,9 % des attributs au niveau produit ; le passage de l'extraction sur image unique à l'extraction multi-image entraîne une perte de 15 à 34 points de pourcentage de rappel. La complétude multi-image, et non la précision sur image unique, constitue le goulot d'étranglement principal. L'ensemble de données et le code sont disponibles publiquement.

English

Industrial products such as valves and circuit breakers are defined by dense technical specifications that govern procurement, compatibility, and safety across supply chains. These specifications are scattered across multiple heterogeneous product images, including specification tables, nameplates, and technical drawings, yet whether Multimodal Large Language Models (MLLMs) can reliably recover them remains underexplored. To fill this gap, we introduce IndustryBench-MIPU, the first large-scale benchmark for multi-image industrial product understanding, built around structured attribute extraction -- recovering property-value pairs from product images. This task jointly probes text recognition on specification tables and nameplates, visual reasoning over technical drawings, domain knowledge to decode industrial terminology, and cross-image evidence integration to assemble scattered specifications. Concretely, the benchmark comprises 4,559 products across 27,652 images with 103,703 annotations spanning 18 industrial categories, constructed through multi-model consensus and three-tier quality assurance. Evaluating nine MLLMs under both single-image and product-level multi-image settings reveals a stark completeness gap: models achieve high precision (86--94%) but the best recovers only 49.9% of product-level attributes; moving from single-image to multi-image extraction costs 15--34 percentage points of recall. Multi-image completeness, not single-image accuracy, is the core bottleneck. Dataset and code are publicly available.