GeoPQA: Cerrando la brecha de percepción visual en MLLMs para el razonamiento geométrico
GeoPQA: Bridging the Visual Perception Gap in MLLMs for Geometric Reasoning
September 22, 2025
Autores: Guizhen Chen, Weiwen Xu, Hao Zhang, Hou Pong Chan, Deli Zhao, Anh Tuan Luu, Yu Rong
cs.AI
Resumen
Los recientes avances en el aprendizaje por refuerzo (RL, por sus siglas en inglés) han mejorado las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs), pero su impacto en los modelos de lenguaje multimodal (MLLMs) es limitado. Particularmente en tareas intensivas en visión, como el razonamiento geométrico, los MLLMs tienden a alucinar con frecuencia, lo que lleva a un razonamiento impreciso. Atribuimos esto al cuello de botella perceptivo en los MLLMs, que limita los beneficios del entrenamiento en razonamiento. Para cuantificar esto, diseñamos un benchmark de Preguntas y Respuestas de Percepción Geométrica (GeoPQA), enfocado en conceptos geométricos básicos y relaciones espaciales. Los experimentos en GeoPQA revelan deficiencias significativas de los MLLMs en percepción visual, lo que restringe las señales de recompensa del RL para un entrenamiento efectivo. Para abordar este cuello de botella, proponemos un marco de entrenamiento de RL en dos etapas: primero mejorando la percepción visual de estructuras geométricas y luego fomentando las capacidades de razonamiento. Aplicado a Qwen2.5-VL-3B-Instruct, nuestro entrenamiento en dos etapas mejora el razonamiento geométrico en un 9.7% y la resolución de problemas geométricos en un 9.1%, en comparación con el enfoque de entrenamiento directo en razonamiento. Nuestro método también se generaliza a otros dominios intensivos en visión, como la comprensión de figuras, destacando la importancia de la base perceptiva en el razonamiento efectivo de los MLLMs.
English
Recent advancements in reinforcement learning (RL) have enhanced the
reasoning abilities of large language models (LLMs), yet the impact on
multimodal LLMs (MLLMs) is limited. Particularly in vision-intensive tasks like
geometric reasoning, MLLMs hallucinate frequently, leading to inaccurate
reasoning. We attribute this to the perceptual bottleneck in MLLMs, which caps
the benefits of reasoning training. To quantify this, we design a
Geo-Perception Question-Answering (GeoPQA) benchmark, targeting basic geometric
concepts and spatial relationships. Experiments on GeoPQA reveal significant
shortcomings of MLLMs in visual perception, which constrain RL reward signals
for effective training. To address this bottleneck, we propose a two-stage RL
training framework by first enhancing the visual perception of geometric
structures, then fostering reasoning capabilities. Applied to
Qwen2.5-VL-3B-Instruct, our two-stage training improves geometric reasoning by
9.7% and geometric problem solving by 9.1%, compared to the direct reasoning
training approach. Our method also generalizes to other vision-intensive
domains like figure understanding, highlighting the importance of perceptual
grounding in effective MLLM reasoning.