FORGE: Valutazione Multimodale di Precisione per Scenari Manifatturieri

Abstract

Il settore manifatturiero sta adottando sempre più i Modelli Linguistici Multimodali di Grande Dimensione (MLLM) per passare dalla semplice percezione all'esecuzione autonoma, ma le valutazioni attuali non riflettono le rigorose esigenze degli ambienti manifatturieri reali. Il progresso è ostacolato dalla scarsità di dati e dalla mancanza di una semantica di dominio granulare nei dataset esistenti. Per colmare questa lacuna, introduciamo FORGE. In primo luogo, costruiamo un dataset multimodale di alta qualità che combina immagini 2D del mondo reale e nuvole di punti 3D, annotato con una semantica di dominio granulare (ad esempio, numeri di modello esatti). Successivamente, valutiamo 18 MLLM all'avanguardia su tre compiti manifatturieri, ovvero verifica del pezzo, ispezione della superficie strutturale e verifica dell'assemblaggio, rilevando divari prestazionali significativi. Contrariamente all'opinione comune, l'analisi dei colli di bottiglia mostra che la localizzazione visiva non è il fattore limitante primario. Piuttosto, la conoscenza specifica del dominio insufficiente è il collo di bottiglia chiave, indicando una direzione chiara per la ricerca futura. Oltre alla valutazione, dimostriamo che le nostre annotazioni strutturate possono fungere da risorsa di formazione azionabile: il fine-tuning supervisionato di un modello compatto da 3 miliardi di parametri sui nostri dati produce un miglioramento relativo fino al 90,8% in accuratezza su scenari manifatturieri tenuti da parte, fornendo prove preliminari per un percorso pratico verso MLLM manifatturieri adattati al dominio. Il codice e i dataset sono disponibili su https://ai4manufacturing.github.io/forge-web.

English

The manufacturing sector is increasingly adopting Multimodal Large Language Models (MLLMs) to transition from simple perception to autonomous execution, yet current evaluations fail to reflect the rigorous demands of real-world manufacturing environments. Progress is hindered by data scarcity and a lack of fine-grained domain semantics in existing datasets. To bridge this gap, we introduce FORGE. Wefirst construct a high-quality multimodal dataset that combines real-world 2D images and 3D point clouds, annotated with fine-grained domain semantics (e.g., exact model numbers). We then evaluate 18 state-of-the-art MLLMs across three manufacturing tasks, namely workpiece verification, structural surface inspection, and assembly verification, revealing significant performance gaps. Counter to conventional understanding, the bottleneck analysis shows that visual grounding is not the primary limiting factor. Instead, insufficient domain-specific knowledge is the key bottleneck, setting a clear direction for future research. Beyond evaluation, we show that our structured annotations can serve as an actionable training resource: supervised fine-tuning of a compact 3B-parameter model on our data yields up to 90.8% relative improvement in accuracy on held-out manufacturing scenarios, providing preliminary evidence for a practical pathway toward domain-adapted manufacturing MLLMs. The code and datasets are available at https://ai4manufacturing.github.io/forge-web.

FORGE: Valutazione Multimodale di Precisione per Scenari Manifatturieri

FORGE:Fine-grained Multimodal Evaluation for Manufacturing Scenarios

Abstract

Support