GeoPQA: Colmare il divario percettivo visivo nei MLLM per il ragionamento geometrico
GeoPQA: Bridging the Visual Perception Gap in MLLMs for Geometric Reasoning
September 22, 2025
Autori: Guizhen Chen, Weiwen Xu, Hao Zhang, Hou Pong Chan, Deli Zhao, Anh Tuan Luu, Yu Rong
cs.AI
Abstract
I recenti progressi nell'apprendimento per rinforzo (RL) hanno potenziato le capacità di ragionamento dei grandi modelli linguistici (LLMs), ma l'impatto sui modelli linguistici multimodali (MLLMs) è limitato. In particolare, in compiti ad alta intensità visiva come il ragionamento geometrico, gli MLLMs generano frequentemente allucinazioni, portando a ragionamenti inaccurati. Attribuiamo ciò al collo di bottiglia percettivo negli MLLMs, che limita i benefici dell'addestramento al ragionamento. Per quantificare questo fenomeno, abbiamo progettato un benchmark di domande e risposte sulla percezione geometrica (GeoPQA), focalizzato su concetti geometrici di base e relazioni spaziali. Gli esperimenti su GeoPQA rivelano significative carenze degli MLLMs nella percezione visiva, che limitano i segnali di ricompensa RL per un addestramento efficace. Per affrontare questo collo di bottiglia, proponiamo un framework di addestramento RL in due fasi, migliorando prima la percezione visiva delle strutture geometriche e poi potenziando le capacità di ragionamento. Applicato a Qwen2.5-VL-3B-Instruct, il nostro addestramento in due fasi migliora il ragionamento geometrico del 9,7% e la risoluzione di problemi geometrici del 9,1%, rispetto all'approccio di addestramento diretto al ragionamento. Il nostro metodo si generalizza anche ad altri domini ad alta intensità visiva come la comprensione delle figure, evidenziando l'importanza del grounding percettivo per un ragionamento efficace negli MLLMs.
English
Recent advancements in reinforcement learning (RL) have enhanced the
reasoning abilities of large language models (LLMs), yet the impact on
multimodal LLMs (MLLMs) is limited. Particularly in vision-intensive tasks like
geometric reasoning, MLLMs hallucinate frequently, leading to inaccurate
reasoning. We attribute this to the perceptual bottleneck in MLLMs, which caps
the benefits of reasoning training. To quantify this, we design a
Geo-Perception Question-Answering (GeoPQA) benchmark, targeting basic geometric
concepts and spatial relationships. Experiments on GeoPQA reveal significant
shortcomings of MLLMs in visual perception, which constrain RL reward signals
for effective training. To address this bottleneck, we propose a two-stage RL
training framework by first enhancing the visual perception of geometric
structures, then fostering reasoning capabilities. Applied to
Qwen2.5-VL-3B-Instruct, our two-stage training improves geometric reasoning by
9.7% and geometric problem solving by 9.1%, compared to the direct reasoning
training approach. Our method also generalizes to other vision-intensive
domains like figure understanding, highlighting the importance of perceptual
grounding in effective MLLM reasoning.