FORGE:製造シナリオにおける細粒度マルチモーダル評価
FORGE:Fine-grained Multimodal Evaluation for Manufacturing Scenarios
April 8, 2026
著者: Xiangru Jian, Hao Xu, Wei Pang, Xinjian Zhao, Chengyu Tao, Qixin Zhang, Xikun Zhang, Chao Zhang, Guanzhi Deng, Alex Xue, Juan Du, Tianshu Yu, Garth Tarr, Linqi Song, Qiuzhuang Sun, Dacheng Tao
cs.AI
要旨
製造業界では、単純な知覚から自律的な実行への移行を目指し、マルチモーダル大規模言語モデル(MLLM)の採用が急速に進んでいる。しかし、現行の評価手法は実世界の製造環境が求める厳密な要求を反映しきれていない。データ不足や既存データセットにおけるドメイン特化の細粒度意味情報の欠如が進展の障壁となっている。この課題を解決するため、我々はFORGEを提案する。まず、実世界の2D画像と3D点群を組み合わせ、細粒度のドメイン意味情報(例:正確なモデル番号)で注釈付けされた高品質マルチモーダルデータセットを構築した。次に、ワークピース検証・構造表面検査・組立検証という3つの製造タスクにおいて18種類の最先端MLLMを評価し、顕著な性能差を明らかにした。従来の認識に反し、ボトルネック分析では視覚的接地が主要な制約要因ではないことが示された。むしろ、ドメイン特化知識の不足が主要なボトルネックであり、将来の研究方針を明確に示す結果となった。評価に加えて、我々の構造化された注釈が実践的な学習リソースとして機能することを実証:3Bパラメータのコンパクトモデルを当データで教師ありファインチューニングすると、保留された製造シナリオにおいて精度が最大90.8%の相対改善を示し、ドメイン適応型製造MLLMへの実用的な道筋を予備的に立証した。コードとデータセットはhttps://ai4manufacturing.github.io/forge-webで公開されている。
English
The manufacturing sector is increasingly adopting Multimodal Large Language Models (MLLMs) to transition from simple perception to autonomous execution, yet current evaluations fail to reflect the rigorous demands of real-world manufacturing environments. Progress is hindered by data scarcity and a lack of fine-grained domain semantics in existing datasets. To bridge this gap, we introduce FORGE. Wefirst construct a high-quality multimodal dataset that combines real-world 2D images and 3D point clouds, annotated with fine-grained domain semantics (e.g., exact model numbers). We then evaluate 18 state-of-the-art MLLMs across three manufacturing tasks, namely workpiece verification, structural surface inspection, and assembly verification, revealing significant performance gaps. Counter to conventional understanding, the bottleneck analysis shows that visual grounding is not the primary limiting factor. Instead, insufficient domain-specific knowledge is the key bottleneck, setting a clear direction for future research. Beyond evaluation, we show that our structured annotations can serve as an actionable training resource: supervised fine-tuning of a compact 3B-parameter model on our data yields up to 90.8% relative improvement in accuracy on held-out manufacturing scenarios, providing preliminary evidence for a practical pathway toward domain-adapted manufacturing MLLMs. The code and datasets are available at https://ai4manufacturing.github.io/forge-web.