FORGE: тонкая мультимодальная оценка для производственных сценариев

Аннотация

Обрабатывающая промышленность все активнее внедряет Мультимодальные Большие Языковые Модели (MLLM) для перехода от простого восприятия к автономному выполнению задач, однако текущие методы оценки не отражают строгих требований реальных производственных сред. Прогресс сдерживается дефицитом данных и отсутствием детализированной предметной семантики в существующих наборах данных. Для преодоления этого разрыва мы представляем FORGE. Сначала мы создаем высококачественный мультимодальный набор данных, объединяющий реальные 2D-изображения и 3D-облака точек, аннотированные с детализированной предметной семантикой (например, точными номерами моделей). Затем мы оцениваем 18 современных MLLM по трем производственным задачам: проверка заготовок, контроль состояния структурных поверхностей и верификация сборки, выявляя значительные разрывы в производительности. Вопреки устоявшемуся мнению, анализ узких мест показывает, что визуальное grounding не является основным ограничивающим фактором. Вместо этого ключевым узким местом выступает недостаток предметных знаний, что задает четкое направление для будущих исследований. Помимо оценки, мы демонстрируем, что наши структурированные аннотации могут служить практическим обучающим ресурсом: контролируемая дообучка компактной модели с 3 миллиардами параметров на наших данных дает относительное улучшение точности до 90,8% на непредставленных производственных сценариях, предоставляя предварительные доказательства практического пути к созданию адаптированных для предметной области производственных MLLM. Код и наборы данных доступны по адресу https://ai4manufacturing.github.io/forge-web.

English

The manufacturing sector is increasingly adopting Multimodal Large Language Models (MLLMs) to transition from simple perception to autonomous execution, yet current evaluations fail to reflect the rigorous demands of real-world manufacturing environments. Progress is hindered by data scarcity and a lack of fine-grained domain semantics in existing datasets. To bridge this gap, we introduce FORGE. Wefirst construct a high-quality multimodal dataset that combines real-world 2D images and 3D point clouds, annotated with fine-grained domain semantics (e.g., exact model numbers). We then evaluate 18 state-of-the-art MLLMs across three manufacturing tasks, namely workpiece verification, structural surface inspection, and assembly verification, revealing significant performance gaps. Counter to conventional understanding, the bottleneck analysis shows that visual grounding is not the primary limiting factor. Instead, insufficient domain-specific knowledge is the key bottleneck, setting a clear direction for future research. Beyond evaluation, we show that our structured annotations can serve as an actionable training resource: supervised fine-tuning of a compact 3B-parameter model on our data yields up to 90.8% relative improvement in accuracy on held-out manufacturing scenarios, providing preliminary evidence for a practical pathway toward domain-adapted manufacturing MLLMs. The code and datasets are available at https://ai4manufacturing.github.io/forge-web.

FORGE: тонкая мультимодальная оценка для производственных сценариев

FORGE:Fine-grained Multimodal Evaluation for Manufacturing Scenarios

Аннотация

Support