FORGE : Évaluation Multimodale à Granularité Fine pour les Scénarios de Fabrication
FORGE:Fine-grained Multimodal Evaluation for Manufacturing Scenarios
April 8, 2026
Auteurs: Xiangru Jian, Hao Xu, Wei Pang, Xinjian Zhao, Chengyu Tao, Qixin Zhang, Xikun Zhang, Chao Zhang, Guanzhi Deng, Alex Xue, Juan Du, Tianshu Yu, Garth Tarr, Linqi Song, Qiuzhuang Sun, Dacheng Tao
cs.AI
Résumé
Le secteur manufacturier adopte de plus en plus les modèles de langage multimodaux de grande taille (MLLM) pour passer d'une perception simple à une exécution autonome, mais les évaluations actuelles ne reflètent pas les exigences rigoureuses des environnements manufacturiers réels. Les progrès sont entravés par la rareté des données et le manque de sémantique granulaire dans les jeux de données existants. Pour combler cette lacune, nous présentons FORGE. Nous construisons d'abord un jeu de données multimodal de haute qualité combinant des images 2D réelles et des nuages de points 3D, annotés avec une sémantique granulaire (par exemple, les références exactes des modèles). Nous évaluons ensuite 18 MLLM de pointe sur trois tâches manufacturières : la vérification des pièces, l'inspection des surfaces structurelles et la vérification de l'assemblage, révélant des écarts de performance significatifs. Contrairement aux idées reçues, l'analyse des goulots d'étranglement montre que l'ancrage visuel n'est pas le facteur limitant principal. Le manque de connaissances spécifiques au domaine constitue plutôt le goulot d'étranglement clé, traçant une orientation claire pour les recherches futures. Au-delà de l'évaluation, nous démontrons que nos annotations structurées peuvent servir de ressource d'entraînement actionnable : le réglage fin supervisé d'un modèle compact de 3 milliards de paramètres sur nos données permet une amélioration relative allant jusqu'à 90,8 % de la précision sur des scénarios manufacturiers non vus, fournissant une preuve préliminaire d'une voie pratique vers des MLLM manufacturiers adaptés au domaine. Le code et les jeux de données sont disponibles à l'adresse https://ai4manufacturing.github.io/forge-web.
English
The manufacturing sector is increasingly adopting Multimodal Large Language Models (MLLMs) to transition from simple perception to autonomous execution, yet current evaluations fail to reflect the rigorous demands of real-world manufacturing environments. Progress is hindered by data scarcity and a lack of fine-grained domain semantics in existing datasets. To bridge this gap, we introduce FORGE. Wefirst construct a high-quality multimodal dataset that combines real-world 2D images and 3D point clouds, annotated with fine-grained domain semantics (e.g., exact model numbers). We then evaluate 18 state-of-the-art MLLMs across three manufacturing tasks, namely workpiece verification, structural surface inspection, and assembly verification, revealing significant performance gaps. Counter to conventional understanding, the bottleneck analysis shows that visual grounding is not the primary limiting factor. Instead, insufficient domain-specific knowledge is the key bottleneck, setting a clear direction for future research. Beyond evaluation, we show that our structured annotations can serve as an actionable training resource: supervised fine-tuning of a compact 3B-parameter model on our data yields up to 90.8% relative improvement in accuracy on held-out manufacturing scenarios, providing preliminary evidence for a practical pathway toward domain-adapted manufacturing MLLMs. The code and datasets are available at https://ai4manufacturing.github.io/forge-web.