GeoPQA: Überbrückung der visuellen Wahrnehmungslücke in MLLMs für geometrisches Denken
GeoPQA: Bridging the Visual Perception Gap in MLLMs for Geometric Reasoning
September 22, 2025
papers.authors: Guizhen Chen, Weiwen Xu, Hao Zhang, Hou Pong Chan, Deli Zhao, Anh Tuan Luu, Yu Rong
cs.AI
papers.abstract
Jüngste Fortschritte im Bereich des Reinforcement Learning (RL) haben die Fähigkeiten großer Sprachmodelle (LLMs) zur logischen Schlussfolgerung verbessert, doch die Auswirkungen auf multimodale LLMs (MLLMs) sind begrenzt. Insbesondere bei visuell anspruchsvollen Aufgaben wie der geometrischen Schlussfolgerung neigen MLLMs häufig zu Halluzinationen, was zu ungenauen Schlussfolgerungen führt. Wir führen dies auf den Wahrnehmungsengpass in MLLMs zurück, der den Nutzen des Schlussfolgerungstrainings begrenzt. Um dies zu quantifizieren, entwickeln wir einen Benchmark für Geo-Perception Question-Answering (GeoPQA), der grundlegende geometrische Konzepte und räumliche Beziehungen abdeckt. Experimente mit GeoPQA zeigen erhebliche Defizite von MLLMs in der visuellen Wahrnehmung, die die RL-Belohnungssignale für ein effektives Training einschränken. Um diesen Engpass zu überwinden, schlagen wir ein zweistufiges RL-Trainingsframework vor, das zunächst die visuelle Wahrnehmung geometrischer Strukturen verbessert und dann die Fähigkeiten zur Schlussfolgerung fördert. Angewendet auf Qwen2.5-VL-3B-Instruct verbessert unser zweistufiges Training die geometrische Schlussfolgerung um 9,7 % und das Lösen geometrischer Probleme um 9,1 % im Vergleich zum direkten Ansatz des Schlussfolgerungstrainings. Unsere Methode lässt sich auch auf andere visuell anspruchsvolle Bereiche wie das Verständnis von Figuren übertragen, was die Bedeutung der Wahrnehmungsverankerung für effektive MLLM-Schlussfolgerungen unterstreicht.
English
Recent advancements in reinforcement learning (RL) have enhanced the
reasoning abilities of large language models (LLMs), yet the impact on
multimodal LLMs (MLLMs) is limited. Particularly in vision-intensive tasks like
geometric reasoning, MLLMs hallucinate frequently, leading to inaccurate
reasoning. We attribute this to the perceptual bottleneck in MLLMs, which caps
the benefits of reasoning training. To quantify this, we design a
Geo-Perception Question-Answering (GeoPQA) benchmark, targeting basic geometric
concepts and spatial relationships. Experiments on GeoPQA reveal significant
shortcomings of MLLMs in visual perception, which constrain RL reward signals
for effective training. To address this bottleneck, we propose a two-stage RL
training framework by first enhancing the visual perception of geometric
structures, then fostering reasoning capabilities. Applied to
Qwen2.5-VL-3B-Instruct, our two-stage training improves geometric reasoning by
9.7% and geometric problem solving by 9.1%, compared to the direct reasoning
training approach. Our method also generalizes to other vision-intensive
domains like figure understanding, highlighting the importance of perceptual
grounding in effective MLLM reasoning.