FORGE: Evaluación Multimodal de Grano Fino para Escenarios de Fabricación

Resumen

El sector manufacturero está adoptando cada vez más los Modelos de Lenguaje Grandes Multimodales (MLLMs) para transitar de la percepción simple a la ejecución autónoma, sin embargo, las evaluaciones actuales no logran reflejar las exigencias rigurosas de los entornos manufactureros reales. El progreso se ve obstaculizado por la escasez de datos y la falta de semántica de dominio granular en los conjuntos de datos existentes. Para cerrar esta brecha, presentamos FORGE. Primero, construimos un conjunto de datos multimodal de alta calidad que combina imágenes 2D y nubes de puntos 3D del mundo real, anotadas con semántica de dominio granular (por ejemplo, números de modelo exactos). Luego, evaluamos 18 MLLMs de vanguardia en tres tareas manufactureras: verificación de piezas, inspección de superficies estructurales y verificación de ensamblaje, revelando brechas de rendimiento significativas. Contrario al entendimiento convencional, el análisis de cuellos de botella muestra que la base visual no es el factor limitante principal. En su lugar, el conocimiento insuficiente específico del dominio es el cuello de botella clave, estableciendo una dirección clara para la investigación futura. Más allá de la evaluación, demostramos que nuestras anotaciones estructuradas pueden servir como un recurso de entrenamiento accionable: el ajuste fino supervisado de un modelo compacto de 3B parámetros con nuestros datos produce una mejora relativa de hasta el 90.8% en precisión en escenarios manufactureros retenidos, proporcionando evidencia preliminar de una vía práctica hacia MLLMs manufactureros adaptados al dominio. El código y los conjuntos de datos están disponibles en https://ai4manufacturing.github.io/forge-web.

English

The manufacturing sector is increasingly adopting Multimodal Large Language Models (MLLMs) to transition from simple perception to autonomous execution, yet current evaluations fail to reflect the rigorous demands of real-world manufacturing environments. Progress is hindered by data scarcity and a lack of fine-grained domain semantics in existing datasets. To bridge this gap, we introduce FORGE. Wefirst construct a high-quality multimodal dataset that combines real-world 2D images and 3D point clouds, annotated with fine-grained domain semantics (e.g., exact model numbers). We then evaluate 18 state-of-the-art MLLMs across three manufacturing tasks, namely workpiece verification, structural surface inspection, and assembly verification, revealing significant performance gaps. Counter to conventional understanding, the bottleneck analysis shows that visual grounding is not the primary limiting factor. Instead, insufficient domain-specific knowledge is the key bottleneck, setting a clear direction for future research. Beyond evaluation, we show that our structured annotations can serve as an actionable training resource: supervised fine-tuning of a compact 3B-parameter model on our data yields up to 90.8% relative improvement in accuracy on held-out manufacturing scenarios, providing preliminary evidence for a practical pathway toward domain-adapted manufacturing MLLMs. The code and datasets are available at https://ai4manufacturing.github.io/forge-web.

FORGE: Evaluación Multimodal de Grano Fino para Escenarios de Fabricación

FORGE:Fine-grained Multimodal Evaluation for Manufacturing Scenarios

Resumen

Support