IndustryBench-MIPU: Benchmarking da Extração de Valores de Atributos em Múltiplas Imagens para Produtos Industriais

Resumo

Produtos industriais, como válvulas e disjuntores, são definidos por especificações técnicas densas que regem aquisição, compatibilidade e segurança ao longo das cadeias de suprimentos. Essas especificações estão dispersas em múltiplas imagens heterogêneas dos produtos, incluindo tabelas de especificações, placas de identificação e desenhos técnicos. No entanto, ainda não foi suficientemente investigado se Modelos de Linguagem de Grande Escala Multimodais (MLLMs) conseguem recuperá-las de forma confiável. Para preencher essa lacuna, apresentamos o IndustryBench-MIPU, o primeiro benchmark em larga escala para compreensão de produtos industriais com múltiplas imagens, construído em torno da extração estruturada de atributos — ou seja, a recuperação de pares propriedade-valor a partir de imagens dos produtos. Essa tarefa avalia simultaneamente o reconhecimento de texto em tabelas de especificações e placas de identificação, o raciocínio visual sobre desenhos técnicos, o conhecimento de domínio para decodificar terminologia industrial e a integração de evidências entre imagens para montar especificações dispersas. Concretamente, o benchmark compreende 4.559 produtos distribuídos em 27.652 imagens, com 103.703 anotações abrangendo 18 categorias industriais, construído por meio de consenso entre múltiplos modelos e um sistema de garantia de qualidade em três níveis. A avaliação de nove MLLMs, tanto em configurações de imagem única quanto em configurações de múltiplas imagens por produto, revela uma lacuna acentuada de completude: os modelos alcançam alta precisão (86–94%), mas o melhor recupera apenas 49,9% dos atributos no nível do produto. A transição da extração com imagem única para a extração com múltiplas imagens resulta em uma perda de 15 a 34 pontos percentuais na revocação. A completude com múltiplas imagens, e não a precisão com imagem única, constitui o principal gargalo. O conjunto de dados e o código estão disponíveis publicamente.

English

Industrial products such as valves and circuit breakers are defined by dense technical specifications that govern procurement, compatibility, and safety across supply chains. These specifications are scattered across multiple heterogeneous product images, including specification tables, nameplates, and technical drawings, yet whether Multimodal Large Language Models (MLLMs) can reliably recover them remains underexplored. To fill this gap, we introduce IndustryBench-MIPU, the first large-scale benchmark for multi-image industrial product understanding, built around structured attribute extraction -- recovering property-value pairs from product images. This task jointly probes text recognition on specification tables and nameplates, visual reasoning over technical drawings, domain knowledge to decode industrial terminology, and cross-image evidence integration to assemble scattered specifications. Concretely, the benchmark comprises 4,559 products across 27,652 images with 103,703 annotations spanning 18 industrial categories, constructed through multi-model consensus and three-tier quality assurance. Evaluating nine MLLMs under both single-image and product-level multi-image settings reveals a stark completeness gap: models achieve high precision (86--94%) but the best recovers only 49.9% of product-level attributes; moving from single-image to multi-image extraction costs 15--34 percentage points of recall. Multi-image completeness, not single-image accuracy, is the core bottleneck. Dataset and code are publicly available.