FORGE: Fein granulierte multimodale Bewertung für Fertigungsszenarien
FORGE:Fine-grained Multimodal Evaluation for Manufacturing Scenarios
April 8, 2026
Autoren: Xiangru Jian, Hao Xu, Wei Pang, Xinjian Zhao, Chengyu Tao, Qixin Zhang, Xikun Zhang, Chao Zhang, Guanzhi Deng, Alex Xue, Juan Du, Tianshu Yu, Garth Tarr, Linqi Song, Qiuzhuang Sun, Dacheng Tao
cs.AI
Zusammenfassung
Der Fertigungssektor setzt zunehmend multimodale große Sprachmodelle (MLLMs) ein, um von einfacher Wahrnehmung zu autonomer Ausführung überzugehen. Dennoch bilden aktuelle Evaluierungen die strengen Anforderungen realer Fertigungsumgebungen nicht ab. Der Fortschritt wird durch Datensparsamkeit und einen Mangel an feingranularen Domänensemantiken in bestehenden Datensätzen behindert. Um diese Lücke zu schließen, stellen wir FORGE vor. Zuerst erstellen wir einen hochwertigen multimodalen Datensatz, der reale 2D-Bilder und 3D-Punktwolken mit feingranularen Domänensemantiken (z.B. exakten Modellnummern) kombiniert. Anschließend evaluieren wir 18 state-of-the-art MLLMs in drei Fertigungsaufgaben: Werkstückverifikation, Oberflächenstrukturprüfung und Montageverifikation. Die Ergebnisse zeigen erhebliche Leistungslücken. Entgegen dem konventionellen Verständnis zeigt die Engpassanalyse, dass visuelle Verankerung nicht der primäre limitierende Faktor ist. Stattdessen ist unzureichendes domänenspezifisches Wissen der Schlüsselengpass, was eine klare Richtung für zukünftige Forschung vorgibt. Über die Evaluierung hinaus demonstrieren wir, dass unsere strukturierten Annotationen als handlungsorientierte Trainingsressource dienen können: Überwachtes Fine-Tuning eines kompakten 3B-Parameter-Modells mit unseren Daten führt zu einer relativen Verbesserung der Genauigkeit von bis zu 90,8% in zurückgehaltenen Fertigungsszenarien. Dies liefert erste Belege für einen praktischen Weg zu domänenangepassten Fertigungs-MLLMs. Code und Datensätze sind unter https://ai4manufacturing.github.io/forge-web verfügbar.
English
The manufacturing sector is increasingly adopting Multimodal Large Language Models (MLLMs) to transition from simple perception to autonomous execution, yet current evaluations fail to reflect the rigorous demands of real-world manufacturing environments. Progress is hindered by data scarcity and a lack of fine-grained domain semantics in existing datasets. To bridge this gap, we introduce FORGE. Wefirst construct a high-quality multimodal dataset that combines real-world 2D images and 3D point clouds, annotated with fine-grained domain semantics (e.g., exact model numbers). We then evaluate 18 state-of-the-art MLLMs across three manufacturing tasks, namely workpiece verification, structural surface inspection, and assembly verification, revealing significant performance gaps. Counter to conventional understanding, the bottleneck analysis shows that visual grounding is not the primary limiting factor. Instead, insufficient domain-specific knowledge is the key bottleneck, setting a clear direction for future research. Beyond evaluation, we show that our structured annotations can serve as an actionable training resource: supervised fine-tuning of a compact 3B-parameter model on our data yields up to 90.8% relative improvement in accuracy on held-out manufacturing scenarios, providing preliminary evidence for a practical pathway toward domain-adapted manufacturing MLLMs. The code and datasets are available at https://ai4manufacturing.github.io/forge-web.