MechVQA: 포괄적 기계 도면 이해를 위한 멀티모달 LLM의 벤치마킹 및 성능 향상
MechVQA: Benchmarking and Enhancing Multimodal LLMs on Comprehensive Mechanical Drawing Understanding
May 29, 2026
저자: Qian Kou, Xiaofeng Shi, Yulin Li, Xiaosong Qiu, Xinyang Wang, Hua Zhou, Cao Dongxing
cs.AI
초록
다중모드 대규모 언어 모델(MLLM)은 일반 시각 질의응답(VQA) 작업에서 상당한 성과를 보여주었다. 그러나 기계 공학 도면에서는 여전히 취약한데, 이는 높은 주석 밀도와 약한 도메인 지식, 그리고 엄격한 투영 규칙과 기하학적 제약 하에서의 신뢰할 수 없는 공간 관계 추론이 결합되어 결정적 단서를 놓치기 쉽고, 이로 인해 빈번히 오답을 초래하기 때문이다. 이러한 격차를 해소하기 위해, 우리는 반자동 구축 및 품질 관리 파이프라인을 통해 생성된 최초의 포괄적인 기계 도면 이해 데이터셋인 MechVQA를 소개한다. MechVQA는 3.3k개의 고밀도 그림과 21K개의 질문-답변 쌍을 포함하며, 인식, 추론, 판단의 세 가지 능력 수준에 걸쳐 10가지 세분화된 작업을 포괄한다. 이는 실제 기계 도면에 대한 MLLM의 이해도를 평가하고 개선하기 위한 테스트베드를 제공한다. MechVQA를 기반으로, 우리는 다단계 학습 패러다임을 통해 MechVL 모델을 개발하여 강력한 도메인 특화 기준선을 구축한다. 광범위한 실험 결과는 MechVL이 MechVQA 총점에서 가장 강력한 폐쇄형 소스 기준선보다 7.57퍼센트 포인트 높은 성능을 보여, 기계 도면 이해 능력을 크게 향상시키고 기계 설계 및 검사 시나리오에서 MLLM을 배포하기 위한 재사용 가능한 기반을 제공한다는 것을 입증한다.
English
Multimodal Large Language Models (MLLMs) have demonstrated significant achievements in general visual question answering (VQA) tasks. However, they remain brittle on mechanical engineering drawings, where high annotation density and weak domain knowledge, compounded by unreliable spatial relation reasoning under strict projection rules and geometric constraints, make decisive cues easy to miss and frequently lead to wrong answers. To bridge this gap, we introduce the first comprehensive mechanical drawing understanding dataset, MechVQA, created through a semi-automated construction and quality-control pipeline. MechVQA contains 3.3k high-density pictures with 21K question-answer pairs, spanning 10 different fine-grained tasks across three capability levels: Recognition, Reasoning, and Judging, providing a testbed to evaluate and improve MLLM understanding on real-world mechanical drawings. On top of MechVQA, we then develop the MechVL model through a multi-stage training paradigm, building a strong domain-specialized baseline. Extensive experimental results demonstrate that MechVL outperforms the strongest closed-source baseline by 7.57 percentage points on the MechVQA total score, significantly enhancing mechanical drawing understanding ability and providing a reusable foundation for deploying MLLMs in mechanical design and inspection scenarios.