MechVQA: Evaluación comparativa y mejora de LLMs multimodales en la comprensión integral de dibujos mecánicos

Resumen

Los modelos de lenguaje multimodal de gran escala (MLLMs) han demostrado logros significativos en tareas generales de respuesta a preguntas visuales (VQA). Sin embargo, siguen siendo frágiles frente a los planos de ingeniería mecánica, donde la alta densidad de anotaciones y el débil conocimiento del dominio, agravados por un razonamiento de relaciones espaciales poco fiable bajo estrictas reglas de proyección y restricciones geométricas, hacen que las señales decisivas sean fáciles de pasar por alto y conduzcan con frecuencia a respuestas erróneas. Para cerrar esta brecha, presentamos el primer conjunto de datos integral para la comprensión de planos mecánicos, MechVQA, creado mediante un canal semiautomático de construcción y control de calidad. MechVQA contiene 3.3k imágenes de alta densidad con 21k pares de preguntas y respuestas, abarcando 10 tareas detalladas diferentes en tres niveles de capacidad: Reconocimiento, Razonamiento y Juicio, proporcionando un banco de pruebas para evaluar y mejorar la comprensión de los MLLMs en planos mecánicos del mundo real. Sobre la base de MechVQA, desarrollamos el modelo MechVL mediante un paradigma de entrenamiento multi-etapa, estableciendo una línea base sólida y especializada en el dominio. Resultados experimentales exhaustivos demuestran que MechVL supera a la línea base de código cerrado más potente en 7.57 puntos porcentuales en la puntuación total de MechVQA, mejorando significativamente la capacidad de comprensión de planos mecánicos y proporcionando una base reutilizable para implementar MLLMs en escenarios de diseño e inspección mecánica.

English

Multimodal Large Language Models (MLLMs) have demonstrated significant achievements in general visual question answering (VQA) tasks. However, they remain brittle on mechanical engineering drawings, where high annotation density and weak domain knowledge, compounded by unreliable spatial relation reasoning under strict projection rules and geometric constraints, make decisive cues easy to miss and frequently lead to wrong answers. To bridge this gap, we introduce the first comprehensive mechanical drawing understanding dataset, MechVQA, created through a semi-automated construction and quality-control pipeline. MechVQA contains 3.3k high-density pictures with 21K question-answer pairs, spanning 10 different fine-grained tasks across three capability levels: Recognition, Reasoning, and Judging, providing a testbed to evaluate and improve MLLM understanding on real-world mechanical drawings. On top of MechVQA, we then develop the MechVL model through a multi-stage training paradigm, building a strong domain-specialized baseline. Extensive experimental results demonstrate that MechVL outperforms the strongest closed-source baseline by 7.57 percentage points on the MechVQA total score, significantly enhancing mechanical drawing understanding ability and providing a reusable foundation for deploying MLLMs in mechanical design and inspection scenarios.