MechVQA : Évaluation comparative et amélioration des LLMs multimodaux pour la compréhension exhaustive des dessins mécaniques

Résumé

Les modèles de langage multimodaux de grande taille (MLLM) ont démontré des performances significatives dans les tâches générales de réponse à des questions visuelles (VQA). Cependant, ils restent fragiles face aux dessins d'ingénierie mécanique, où une forte densité d'annotations et une connaissance limitée du domaine, aggravées par un raisonnement peu fiable sur les relations spatiales dans le cadre de règles de projection strictes et de contraintes géométriques, rendent les indices décisifs difficiles à repérer et conduisent fréquemment à des réponses erronées. Pour combler cette lacune, nous introduisons le premier ensemble de données complet pour la compréhension de dessins mécaniques, MechVQA, créé via un pipeline de construction semi-automatisé et de contrôle qualité. MechVQA contient 3 300 images à haute densité avec 21 000 paires questions-réponses, couvrant 10 tâches fines différentes réparties sur trois niveaux de capacité : Reconnaissance, Raisonnement et Jugement, offrant ainsi un banc d'essai pour évaluer et améliorer la compréhension des dessins mécaniques réels par les MLLM. À partir de MechVQA, nous développons ensuite le modèle MechVL via un paradigme d'entraînement en plusieurs étapes, établissant une base de référence solide spécialisée dans le domaine. Des résultats expérimentaux approfondis montrent que MechVL surpasse la meilleure base de référence à source fermée de 7,57 points de pourcentage sur le score total de MechVQA, améliorant significativement la capacité de compréhension des dessins mécaniques et fournissant une base réutilisable pour le déploiement des MLLM dans des scénarios de conception et d'inspection mécaniques.

English

Multimodal Large Language Models (MLLMs) have demonstrated significant achievements in general visual question answering (VQA) tasks. However, they remain brittle on mechanical engineering drawings, where high annotation density and weak domain knowledge, compounded by unreliable spatial relation reasoning under strict projection rules and geometric constraints, make decisive cues easy to miss and frequently lead to wrong answers. To bridge this gap, we introduce the first comprehensive mechanical drawing understanding dataset, MechVQA, created through a semi-automated construction and quality-control pipeline. MechVQA contains 3.3k high-density pictures with 21K question-answer pairs, spanning 10 different fine-grained tasks across three capability levels: Recognition, Reasoning, and Judging, providing a testbed to evaluate and improve MLLM understanding on real-world mechanical drawings. On top of MechVQA, we then develop the MechVL model through a multi-stage training paradigm, building a strong domain-specialized baseline. Extensive experimental results demonstrate that MechVL outperforms the strongest closed-source baseline by 7.57 percentage points on the MechVQA total score, significantly enhancing mechanical drawing understanding ability and providing a reusable foundation for deploying MLLMs in mechanical design and inspection scenarios.