GeoPQA: Reduzindo a Lacuna de Percepção Visual em MLLMs para Raciocínio Geométrico
GeoPQA: Bridging the Visual Perception Gap in MLLMs for Geometric Reasoning
September 22, 2025
Autores: Guizhen Chen, Weiwen Xu, Hao Zhang, Hou Pong Chan, Deli Zhao, Anh Tuan Luu, Yu Rong
cs.AI
Resumo
Avanços recentes no aprendizado por reforço (RL) têm aprimorado as habilidades de raciocínio de grandes modelos de linguagem (LLMs), mas o impacto em modelos de linguagem multimodal (MLLMs) ainda é limitado. Especialmente em tarefas intensivas em visão, como raciocínio geométrico, os MLLMs frequentemente alucinam, resultando em raciocínios imprecisos. Atribuímos isso ao gargalo perceptivo nos MLLMs, que limita os benefícios do treinamento de raciocínio. Para quantificar esse problema, projetamos um benchmark de Perguntas e Respostas de Percepção Geométrica (GeoPQA), focado em conceitos geométricos básicos e relações espaciais. Experimentos no GeoPQA revelam deficiências significativas dos MLLMs em percepção visual, o que restringe os sinais de recompensa do RL para um treinamento eficaz. Para superar esse gargalo, propomos uma estrutura de treinamento de RL em duas etapas: primeiro, aprimorando a percepção visual de estruturas geométricas e, em seguida, desenvolvendo capacidades de raciocínio. Aplicado ao Qwen2.5-VL-3B-Instruct, nosso treinamento em duas etapas melhora o raciocínio geométrico em 9,7% e a resolução de problemas geométricos em 9,1%, em comparação com a abordagem de treinamento direto de raciocínio. Nosso método também se generaliza para outros domínios intensivos em visão, como a compreensão de figuras, destacando a importância da fundamentação perceptiva para um raciocínio eficaz em MLLMs.
English
Recent advancements in reinforcement learning (RL) have enhanced the
reasoning abilities of large language models (LLMs), yet the impact on
multimodal LLMs (MLLMs) is limited. Particularly in vision-intensive tasks like
geometric reasoning, MLLMs hallucinate frequently, leading to inaccurate
reasoning. We attribute this to the perceptual bottleneck in MLLMs, which caps
the benefits of reasoning training. To quantify this, we design a
Geo-Perception Question-Answering (GeoPQA) benchmark, targeting basic geometric
concepts and spatial relationships. Experiments on GeoPQA reveal significant
shortcomings of MLLMs in visual perception, which constrain RL reward signals
for effective training. To address this bottleneck, we propose a two-stage RL
training framework by first enhancing the visual perception of geometric
structures, then fostering reasoning capabilities. Applied to
Qwen2.5-VL-3B-Instruct, our two-stage training improves geometric reasoning by
9.7% and geometric problem solving by 9.1%, compared to the direct reasoning
training approach. Our method also generalizes to other vision-intensive
domains like figure understanding, highlighting the importance of perceptual
grounding in effective MLLM reasoning.