GeoPQA: 幾何推論におけるMLLMの視覚知覚ギャップを埋める
GeoPQA: Bridging the Visual Perception Gap in MLLMs for Geometric Reasoning
September 22, 2025
著者: Guizhen Chen, Weiwen Xu, Hao Zhang, Hou Pong Chan, Deli Zhao, Anh Tuan Luu, Yu Rong
cs.AI
要旨
近年の強化学習(RL)の進展により、大規模言語モデル(LLM)の推論能力が向上しているが、マルチモーダルLLM(MLLM)への影響は限定的である。特に幾何学的推論のような視覚集約的なタスクでは、MLLMが頻繁に幻覚を起こし、不正確な推論につながることがある。我々はこれをMLLMの知覚ボトルネックに起因すると考え、これが推論訓練の効果を制限していると指摘する。これを定量化するため、基本的な幾何学的概念と空間的関係を対象としたGeo-Perception Question-Answering(GeoPQA)ベンチマークを設計した。GeoPQAでの実験により、MLLMの視覚知覚における重大な欠陥が明らかになり、これが効果的な訓練のためのRL報酬信号を制約していることがわかった。このボトルネックに対処するため、我々は二段階のRL訓練フレームワークを提案する。まず幾何学的構造の視覚知覚を強化し、その後推論能力を育成する。Qwen2.5-VL-3B-Instructに適用した結果、直接的な推論訓練アプローチと比較して、幾何学的推論が9.7%、幾何学的問題解決が9.1%向上した。我々の手法は、図形理解のような他の視覚集約的な領域にも一般化し、効果的なMLLM推論における知覚的基盤の重要性を強調している。
English
Recent advancements in reinforcement learning (RL) have enhanced the
reasoning abilities of large language models (LLMs), yet the impact on
multimodal LLMs (MLLMs) is limited. Particularly in vision-intensive tasks like
geometric reasoning, MLLMs hallucinate frequently, leading to inaccurate
reasoning. We attribute this to the perceptual bottleneck in MLLMs, which caps
the benefits of reasoning training. To quantify this, we design a
Geo-Perception Question-Answering (GeoPQA) benchmark, targeting basic geometric
concepts and spatial relationships. Experiments on GeoPQA reveal significant
shortcomings of MLLMs in visual perception, which constrain RL reward signals
for effective training. To address this bottleneck, we propose a two-stage RL
training framework by first enhancing the visual perception of geometric
structures, then fostering reasoning capabilities. Applied to
Qwen2.5-VL-3B-Instruct, our two-stage training improves geometric reasoning by
9.7% and geometric problem solving by 9.1%, compared to the direct reasoning
training approach. Our method also generalizes to other vision-intensive
domains like figure understanding, highlighting the importance of perceptual
grounding in effective MLLM reasoning.