ChatPaper.aiChatPaper

FORGE: Fijnmazige Multimodale Evaluatie voor Productieomgevingen

FORGE:Fine-grained Multimodal Evaluation for Manufacturing Scenarios

April 8, 2026
Auteurs: Xiangru Jian, Hao Xu, Wei Pang, Xinjian Zhao, Chengyu Tao, Qixin Zhang, Xikun Zhang, Chao Zhang, Guanzhi Deng, Alex Xue, Juan Du, Tianshu Yu, Garth Tarr, Linqi Song, Qiuzhuang Sun, Dacheng Tao
cs.AI

Samenvatting

De maakindustrie neemt in toenemende mate Multimodale Large Language Models (MLLM's) in gebruik om de overgang te maken van eenvoudige perceptie naar autonome uitvoering. Toch slagen huidige evaluatiemethoden er niet in om de strenge eisen van reële productieomgevingen te weerspiegelen. Vooruitgang wordt belemmerd door een gebrek aan data en een tekort aan gedetailleerde domeinsemantiek in bestaande datasets. Om deze kloof te overbruggen, introduceren we FORGE. We construeren eerst een hoogwaardige multimodale dataset die realistische 2D-beelden en 3D-puntenwolken combineert, geannoteerd met fijnmazige domeinsemantiek (bijvoorbeeld exacte modelnummers). Vervolgens evalueren we 18 state-of-the-art MLLM's op drie productietaken, namelijk werkstukverificatie, inspectie van structurele oppervlakken en assemblageverificatie, wat aanzienlijke prestatiekloofen aan het licht brengt. In tegenstelling tot de conventionele opvatting, toont de bottleneck-analyse aan dat visuele grounding niet de primaire beperkende factor is. In plaats daarvan is onvoldoende domeinspecifieke kennis de belangrijkste bottleneck, wat een duidelijke richting voor toekomstig onderzoek aangeeft. Naast evaluatie tonen we aan dat onze gestructureerde annotaties kunnen dienen als een bruikbare trainingsbron: supervised fine-tuning van een compact 3B-parameter model op onze data levert een relatieve verbetering in nauwkeurigheid van tot wel 90,8% op voor ongebruikte productiescenario's. Dit biedt een eerste aanwijzing voor een praktische weg naar domeinaangepaste productie-MLLM's. De code en datasets zijn beschikbaar op https://ai4manufacturing.github.io/forge-web.
English
The manufacturing sector is increasingly adopting Multimodal Large Language Models (MLLMs) to transition from simple perception to autonomous execution, yet current evaluations fail to reflect the rigorous demands of real-world manufacturing environments. Progress is hindered by data scarcity and a lack of fine-grained domain semantics in existing datasets. To bridge this gap, we introduce FORGE. Wefirst construct a high-quality multimodal dataset that combines real-world 2D images and 3D point clouds, annotated with fine-grained domain semantics (e.g., exact model numbers). We then evaluate 18 state-of-the-art MLLMs across three manufacturing tasks, namely workpiece verification, structural surface inspection, and assembly verification, revealing significant performance gaps. Counter to conventional understanding, the bottleneck analysis shows that visual grounding is not the primary limiting factor. Instead, insufficient domain-specific knowledge is the key bottleneck, setting a clear direction for future research. Beyond evaluation, we show that our structured annotations can serve as an actionable training resource: supervised fine-tuning of a compact 3B-parameter model on our data yields up to 90.8% relative improvement in accuracy on held-out manufacturing scenarios, providing preliminary evidence for a practical pathway toward domain-adapted manufacturing MLLMs. The code and datasets are available at https://ai4manufacturing.github.io/forge-web.
PDF825April 14, 2026