IndustryBench-MIPU: Evaluación comparativa de la extracción de valores de atributos de múltiples imágenes para productos industriales

Resumen

Productos industriales como válvulas y disyuntores se definen mediante especificaciones técnicas densas que rigen la adquisición, compatibilidad y seguridad a lo largo de las cadenas de suministro. Estas especificaciones están dispersas en múltiples imágenes de producto heterogéneas, incluyendo tablas de especificaciones, placas de identificación y planos técnicos; sin embargo, aún no se ha explorado si los Modelos de Lenguaje Grandes Multimodales (MLLMs) pueden recuperarlas de manera fiable. Para llenar este vacío, presentamos IndustryBench-MIPU, el primer punto de referencia a gran escala para la comprensión multiimagen de productos industriales, construido en torno a la extracción estructurada de atributos — recuperación de pares propiedad-valor a partir de imágenes de producto. Esta tarea evalúa conjuntamente el reconocimiento de texto en tablas de especificaciones y placas de identificación, el razonamiento visual sobre planos técnicos, el conocimiento del dominio para decodificar terminología industrial y la integración de evidencia entre imágenes para ensamblar especificaciones dispersas. Concretamente, el punto de referencia comprende 4,559 productos a lo largo de 27,652 imágenes con 103,703 anotaciones que abarcan 18 categorías industriales, construido mediante consenso multimodelo y garantía de calidad de tres niveles. La evaluación de nueve MLLMs bajo configuraciones tanto de imagen única como multiimagen a nivel de producto revela una marcada brecha de completitud: los modelos alcanzan una alta precisión (86–94%), pero el mejor recupera solo el 49.9% de los atributos a nivel de producto; pasar de la extracción con una sola imagen a la extracción multiimagen cuesta entre 15 y 34 puntos porcentuales de exhaustividad. La completitud multiimagen, no la precisión con una sola imagen, es el cuello de botella principal. El conjunto de datos y el código están disponibles públicamente.

English

Industrial products such as valves and circuit breakers are defined by dense technical specifications that govern procurement, compatibility, and safety across supply chains. These specifications are scattered across multiple heterogeneous product images, including specification tables, nameplates, and technical drawings, yet whether Multimodal Large Language Models (MLLMs) can reliably recover them remains underexplored. To fill this gap, we introduce IndustryBench-MIPU, the first large-scale benchmark for multi-image industrial product understanding, built around structured attribute extraction -- recovering property-value pairs from product images. This task jointly probes text recognition on specification tables and nameplates, visual reasoning over technical drawings, domain knowledge to decode industrial terminology, and cross-image evidence integration to assemble scattered specifications. Concretely, the benchmark comprises 4,559 products across 27,652 images with 103,703 annotations spanning 18 industrial categories, constructed through multi-model consensus and three-tier quality assurance. Evaluating nine MLLMs under both single-image and product-level multi-image settings reveals a stark completeness gap: models achieve high precision (86--94%) but the best recovers only 49.9% of product-level attributes; moving from single-image to multi-image extraction costs 15--34 percentage points of recall. Multi-image completeness, not single-image accuracy, is the core bottleneck. Dataset and code are publicly available.