FORGE: Avaliação Multimodal de Granularidade Fina para Cenários de Manufatura

Resumo

O setor manufatureiro está adotando cada vez mais Modelos de Linguagem Multimodais de Grande Porte (MLLMs) para transitar da perceção simples para a execução autónoma, no entanto, as avaliações atuais não refletem as exigências rigorosas dos ambientes reais de manufatura. O progresso é dificultado pela escassez de dados e pela falta de semântica de domínio granular nos conjuntos de dados existentes. Para colmatar esta lacuna, apresentamos o FORGE. Primeiro, construímos um conjunto de dados multimodal de alta qualidade que combina imagens 2D do mundo real e nuvens de pontos 3D, anotadas com semântica de domínio granular (por exemplo, números de modelo exatos). Em seguida, avaliamos 18 MLLMs de última geração em três tarefas de manufatura, nomeadamente verificação de peças, inspeção de superfícies estruturais e verificação de montagem, revelando lacunas de desempenho significativas. Contrariamente ao entendimento convencional, a análise de estrangulamento mostra que a fundamentação visual não é o principal fator limitante. Em vez disso, o conhecimento insuficiente específico do domínio é o estrangulamento chave, estabelecendo uma direção clara para pesquisas futuras. Para além da avaliação, mostramos que as nossas anotações estruturadas podem servir como um recurso de treino acionável: o ajuste fino supervisionado de um modelo compacto de 3B de parâmetros com os nossos dados produz uma melhoria relativa de até 90,8% na precisão em cenários de manufatura retidos, fornecendo evidências preliminares para um caminho prático em direção a MLLMs de manufatura adaptados ao domínio. O código e os conjuntos de dados estão disponíveis em https://ai4manufacturing.github.io/forge-web.

English

The manufacturing sector is increasingly adopting Multimodal Large Language Models (MLLMs) to transition from simple perception to autonomous execution, yet current evaluations fail to reflect the rigorous demands of real-world manufacturing environments. Progress is hindered by data scarcity and a lack of fine-grained domain semantics in existing datasets. To bridge this gap, we introduce FORGE. Wefirst construct a high-quality multimodal dataset that combines real-world 2D images and 3D point clouds, annotated with fine-grained domain semantics (e.g., exact model numbers). We then evaluate 18 state-of-the-art MLLMs across three manufacturing tasks, namely workpiece verification, structural surface inspection, and assembly verification, revealing significant performance gaps. Counter to conventional understanding, the bottleneck analysis shows that visual grounding is not the primary limiting factor. Instead, insufficient domain-specific knowledge is the key bottleneck, setting a clear direction for future research. Beyond evaluation, we show that our structured annotations can serve as an actionable training resource: supervised fine-tuning of a compact 3B-parameter model on our data yields up to 90.8% relative improvement in accuracy on held-out manufacturing scenarios, providing preliminary evidence for a practical pathway toward domain-adapted manufacturing MLLMs. The code and datasets are available at https://ai4manufacturing.github.io/forge-web.

FORGE: Avaliação Multimodal de Granularidade Fina para Cenários de Manufatura

FORGE:Fine-grained Multimodal Evaluation for Manufacturing Scenarios

Resumo

Support