GeoPQA : Combler l'écart de perception visuelle dans les MLLM pour le raisonnement géométrique
GeoPQA: Bridging the Visual Perception Gap in MLLMs for Geometric Reasoning
September 22, 2025
papers.authors: Guizhen Chen, Weiwen Xu, Hao Zhang, Hou Pong Chan, Deli Zhao, Anh Tuan Luu, Yu Rong
cs.AI
papers.abstract
Les avancées récentes en apprentissage par renforcement (RL) ont amélioré les capacités de raisonnement des grands modèles de langage (LLMs), mais leur impact sur les modèles de langage multimodaux (MLLMs) reste limité. En particulier dans les tâches visuellement intensives comme le raisonnement géométrique, les MLLMs hallucinent fréquemment, conduisant à des raisonnements inexacts. Nous attribuons cela au goulot d'étranglement perceptuel des MLLMs, qui limite les bénéfices de l'entraînement au raisonnement. Pour quantifier ce phénomène, nous concevons un benchmark de questions-réponses géo-perceptuelles (GeoPQA), ciblant les concepts géométriques de base et les relations spatiales. Les expériences sur GeoPQA révèlent des lacunes significatives des MLLMs en perception visuelle, ce qui restreint les signaux de récompense RL pour un entraînement efficace. Pour résoudre ce goulot d'étranglement, nous proposons un cadre d'entraînement RL en deux étapes : d'abord en améliorant la perception visuelle des structures géométriques, puis en développant les capacités de raisonnement. Appliqué à Qwen2.5-VL-3B-Instruct, notre entraînement en deux étapes améliore le raisonnement géométrique de 9,7 % et la résolution de problèmes géométriques de 9,1 %, par rapport à l'approche d'entraînement direct au raisonnement. Notre méthode se généralise également à d'autres domaines visuellement intensifs comme la compréhension de figures, soulignant l'importance de l'ancrage perceptuel pour un raisonnement efficace des MLLMs.
English
Recent advancements in reinforcement learning (RL) have enhanced the
reasoning abilities of large language models (LLMs), yet the impact on
multimodal LLMs (MLLMs) is limited. Particularly in vision-intensive tasks like
geometric reasoning, MLLMs hallucinate frequently, leading to inaccurate
reasoning. We attribute this to the perceptual bottleneck in MLLMs, which caps
the benefits of reasoning training. To quantify this, we design a
Geo-Perception Question-Answering (GeoPQA) benchmark, targeting basic geometric
concepts and spatial relationships. Experiments on GeoPQA reveal significant
shortcomings of MLLMs in visual perception, which constrain RL reward signals
for effective training. To address this bottleneck, we propose a two-stage RL
training framework by first enhancing the visual perception of geometric
structures, then fostering reasoning capabilities. Applied to
Qwen2.5-VL-3B-Instruct, our two-stage training improves geometric reasoning by
9.7% and geometric problem solving by 9.1%, compared to the direct reasoning
training approach. Our method also generalizes to other vision-intensive
domains like figure understanding, highlighting the importance of perceptual
grounding in effective MLLM reasoning.