GeoPQA: Преодоление разрыва в визуальном восприятии MLLM для геометрического анализа
GeoPQA: Bridging the Visual Perception Gap in MLLMs for Geometric Reasoning
September 22, 2025
Авторы: Guizhen Chen, Weiwen Xu, Hao Zhang, Hou Pong Chan, Deli Zhao, Anh Tuan Luu, Yu Rong
cs.AI
Аннотация
Последние достижения в области обучения с подкреплением (RL) улучшили способности к рассуждению у крупных языковых моделей (LLM), однако их влияние на мультимодальные языковые модели (MLLM) остается ограниченным. Особенно в задачах, требующих интенсивного использования зрения, таких как геометрическое рассуждение, MLLM часто генерируют ошибочные выводы, что приводит к неточным результатам. Мы связываем это с перцептивным барьером в MLLM, который ограничивает преимущества обучения рассуждению. Для количественной оценки этого явления мы разработали эталонный набор данных Geo-Perception Question-Answering (GeoPQA), ориентированный на базовые геометрические концепции и пространственные отношения. Эксперименты на GeoPQA выявили значительные недостатки MLLM в визуальном восприятии, которые ограничивают сигналы вознаграждения RL для эффективного обучения. Для преодоления этого барьера мы предлагаем двухэтапную структуру обучения RL, сначала улучшая визуальное восприятие геометрических структур, а затем развивая способности к рассуждению. Примененная к модели Qwen2.5-VL-3B-Instruct, наша двухэтапная методика улучшает геометрическое рассуждение на 9,7% и решение геометрических задач на 9,1% по сравнению с подходом прямого обучения рассуждению. Наш метод также обобщается на другие области, требующие интенсивного использования зрения, такие как понимание графиков, подчеркивая важность перцептивной основы для эффективного рассуждения в MLLM.
English
Recent advancements in reinforcement learning (RL) have enhanced the
reasoning abilities of large language models (LLMs), yet the impact on
multimodal LLMs (MLLMs) is limited. Particularly in vision-intensive tasks like
geometric reasoning, MLLMs hallucinate frequently, leading to inaccurate
reasoning. We attribute this to the perceptual bottleneck in MLLMs, which caps
the benefits of reasoning training. To quantify this, we design a
Geo-Perception Question-Answering (GeoPQA) benchmark, targeting basic geometric
concepts and spatial relationships. Experiments on GeoPQA reveal significant
shortcomings of MLLMs in visual perception, which constrain RL reward signals
for effective training. To address this bottleneck, we propose a two-stage RL
training framework by first enhancing the visual perception of geometric
structures, then fostering reasoning capabilities. Applied to
Qwen2.5-VL-3B-Instruct, our two-stage training improves geometric reasoning by
9.7% and geometric problem solving by 9.1%, compared to the direct reasoning
training approach. Our method also generalizes to other vision-intensive
domains like figure understanding, highlighting the importance of perceptual
grounding in effective MLLM reasoning.