MechVQA: Бенчмаркинг и улучшение мультимодальных LLM для всестороннего понимания механических чертежей

Аннотация

Мультимодальные большие языковые модели (MLLM) продемонстрировали значительные успехи в задачах общего визуального ответа на вопросы (VQA). Однако они остаются неустойчивыми при работе с чертежами машиностроения, где высокая плотность аннотаций и слабые знания предметной области в сочетании с ненадёжным пространственным рассуждением в рамках строгих правил проецирования и геометрических ограничений приводят к тому, что решающие подсказки легко упускаются, что часто ведёт к неверным ответам. Чтобы восполнить этот пробел, мы представляем первый комплексный набор данных для понимания машиностроительных чертежей — MechVQA, созданный с помощью полуавтоматического конвейера построения и контроля качества. MechVQA содержит 3,3 тыс. изображений высокой плотности с 21 тыс. пар «вопрос-ответ», охватывающих 10 различных детализированных задач по трём уровням способностей: Распознавание, Рассуждение и Оценка, что обеспечивает тестовую платформу для оценки и улучшения понимания MLLM реальных машиностроительных чертежей. На основе MechVQA мы разработали модель MechVL, используя многоэтапную парадигму обучения, создав надёжный специализированный базовый уровень для данной предметной области. Обширные экспериментальные результаты показывают, что MechVL превосходит сильнейший базовый уровень с закрытым исходным кодом на 7,57 процентных пункта по общему баллу MechVQA, значительно улучшая способность понимания машиностроительных чертежей и предоставляя многократно используемую основу для развёртывания MLLM в сценариях машиностроительного проектирования и контроля.

English

Multimodal Large Language Models (MLLMs) have demonstrated significant achievements in general visual question answering (VQA) tasks. However, they remain brittle on mechanical engineering drawings, where high annotation density and weak domain knowledge, compounded by unreliable spatial relation reasoning under strict projection rules and geometric constraints, make decisive cues easy to miss and frequently lead to wrong answers. To bridge this gap, we introduce the first comprehensive mechanical drawing understanding dataset, MechVQA, created through a semi-automated construction and quality-control pipeline. MechVQA contains 3.3k high-density pictures with 21K question-answer pairs, spanning 10 different fine-grained tasks across three capability levels: Recognition, Reasoning, and Judging, providing a testbed to evaluate and improve MLLM understanding on real-world mechanical drawings. On top of MechVQA, we then develop the MechVL model through a multi-stage training paradigm, building a strong domain-specialized baseline. Extensive experimental results demonstrate that MechVL outperforms the strongest closed-source baseline by 7.57 percentage points on the MechVQA total score, significantly enhancing mechanical drawing understanding ability and providing a reusable foundation for deploying MLLMs in mechanical design and inspection scenarios.