MechVQA: Benchmarking und Verbesserung multimodaler LLMs für das umfassende Verständnis mechanischer Zeichnungen

Zusammenfassung

Multimodale große Sprachmodelle (MLLMs) haben bemerkenswerte Erfolge bei allgemeinen Aufgaben der visuellen Fragebeantwortung (VQA) erzielt. Sie erweisen sich jedoch als anfällig bei mechanischen Konstruktionszeichnungen, wo eine hohe Annotationsdichte und schwaches Domänenwissen, verbunden mit unzuverlässigem räumlichem Schlussfolgern unter strengen Projektionsregeln und geometrischen Randbedingungen, dazu führen, dass entscheidende Hinweise leicht übersehen werden und häufig falsche Antworten resultieren. Um diese Lücke zu schließen, stellen wir den ersten umfassenden Datensatz zum Verständnis mechanischer Zeichnungen vor, MechVQA, der durch eine halbautomatische Erstellungs- und Qualitätskontroll-Pipeline erstellt wurde. MechVQA enthält 3.300 hochdichte Abbildungen mit 21.000 Frage-Antwort-Paaren, die zehn verschiedene feingranulare Aufgaben auf drei Fähigkeitsstufen umfassen: Erkennung, Schlussfolgerung und Beurteilung. Damit bietet er eine Testumgebung zur Bewertung und Verbesserung des Verständnisses von MLLMs für reale mechanische Zeichnungen. Aufbauend auf MechVQA entwickeln wir anschließend das MechVL-Modell mittels eines mehrstufigen Trainingsparadigmas und schaffen damit eine starke domänenspezifische Basislinie. Umfangreiche experimentelle Ergebnisse zeigen, dass MechVL die stärkste Closed-Source-Basislinie um 7,57 Prozentpunkte in der Gesamtpunktzahl von MechVQA übertrifft, die Fähigkeit zum Verständnis mechanischer Zeichnungen erheblich verbessert und eine wiederverwendbare Grundlage für den Einsatz von MLLMs in Szenarien der mechanischen Konstruktion und Inspektion bietet.

English

Multimodal Large Language Models (MLLMs) have demonstrated significant achievements in general visual question answering (VQA) tasks. However, they remain brittle on mechanical engineering drawings, where high annotation density and weak domain knowledge, compounded by unreliable spatial relation reasoning under strict projection rules and geometric constraints, make decisive cues easy to miss and frequently lead to wrong answers. To bridge this gap, we introduce the first comprehensive mechanical drawing understanding dataset, MechVQA, created through a semi-automated construction and quality-control pipeline. MechVQA contains 3.3k high-density pictures with 21K question-answer pairs, spanning 10 different fine-grained tasks across three capability levels: Recognition, Reasoning, and Judging, providing a testbed to evaluate and improve MLLM understanding on real-world mechanical drawings. On top of MechVQA, we then develop the MechVL model through a multi-stage training paradigm, building a strong domain-specialized baseline. Extensive experimental results demonstrate that MechVL outperforms the strongest closed-source baseline by 7.57 percentage points on the MechVQA total score, significantly enhancing mechanical drawing understanding ability and providing a reusable foundation for deploying MLLMs in mechanical design and inspection scenarios.