GeoPQA: Het overbruggen van de visuele perceptiekloof in MLLMs voor geometrisch redeneren
GeoPQA: Bridging the Visual Perception Gap in MLLMs for Geometric Reasoning
September 22, 2025
Auteurs: Guizhen Chen, Weiwen Xu, Hao Zhang, Hou Pong Chan, Deli Zhao, Anh Tuan Luu, Yu Rong
cs.AI
Samenvatting
Recente vooruitgang in reinforcement learning (RL) heeft de redeneervaardigheden van grote taalmodellen (LLMs) verbeterd, maar de impact op multimodale LLMs (MLLMs) blijft beperkt. Met name bij visueel intensieve taken zoals geometrisch redeneren, hallucineren MLLMs vaak, wat leidt tot onnauwkeurige redeneringen. Wij schrijven dit toe aan het perceptuele knelpunt in MLLMs, dat de voordelen van redeneertraining beperkt. Om dit te kwantificeren, hebben we een Geo-Perception Question-Answering (GeoPQA) benchmark ontworpen, gericht op basisgeometrische concepten en ruimtelijke relaties. Experimenten met GeoPQA onthullen aanzienlijke tekortkomingen van MLLMs in visuele perceptie, die de RL-beloningssignalen voor effectieve training beperken. Om dit knelpunt aan te pakken, stellen we een tweefasen RL-trainingsframework voor, waarbij eerst de visuele perceptie van geometrische structuren wordt verbeterd, waarna de redeneervaardigheden worden gestimuleerd. Toegepast op Qwen2.5-VL-3B-Instruct, verbetert onze tweefasentraining het geometrisch redeneren met 9,7% en het oplossen van geometrische problemen met 9,1%, vergeleken met de directe redeneertrainingsaanpak. Onze methode generaliseert ook naar andere visueel intensieve domeinen zoals figuurinterpretatie, wat het belang van perceptuele verankering benadrukt voor effectief redeneren in MLLMs.
English
Recent advancements in reinforcement learning (RL) have enhanced the
reasoning abilities of large language models (LLMs), yet the impact on
multimodal LLMs (MLLMs) is limited. Particularly in vision-intensive tasks like
geometric reasoning, MLLMs hallucinate frequently, leading to inaccurate
reasoning. We attribute this to the perceptual bottleneck in MLLMs, which caps
the benefits of reasoning training. To quantify this, we design a
Geo-Perception Question-Answering (GeoPQA) benchmark, targeting basic geometric
concepts and spatial relationships. Experiments on GeoPQA reveal significant
shortcomings of MLLMs in visual perception, which constrain RL reward signals
for effective training. To address this bottleneck, we propose a two-stage RL
training framework by first enhancing the visual perception of geometric
structures, then fostering reasoning capabilities. Applied to
Qwen2.5-VL-3B-Instruct, our two-stage training improves geometric reasoning by
9.7% and geometric problem solving by 9.1%, compared to the direct reasoning
training approach. Our method also generalizes to other vision-intensive
domains like figure understanding, highlighting the importance of perceptual
grounding in effective MLLM reasoning.