ChatPaper.aiChatPaper

RewardMap: Enfrentando Recompensas Esparsas no Raciocínio Visual de Alta Granularidade por meio de Aprendizado por Reforço em Múltiplos Estágios

RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

October 2, 2025
Autores: Sicheng Feng, Kaiwen Tuo, Song Wang, Lingdong Kong, Jianke Zhu, Huan Wang
cs.AI

Resumo

O raciocínio visual detalhado continua sendo um desafio central para modelos de linguagem multimodal de grande escala (MLLMs). O recentemente introduzido ReasonMap destaca essa lacuna ao demonstrar que mesmo MLLMs avançados lutam com o raciocínio espacial em ambientes estruturados e ricos em informações, como mapas de trânsito, uma tarefa de clara importância prática e científica. No entanto, o aprendizado por reforço (RL) padrão em tais tarefas é dificultado por recompensas esparsas e otimização instável. Para abordar isso, primeiro construímos o ReasonMap-Plus, um conjunto de dados estendido que introduz sinais de recompensa densa por meio de tarefas de Visual Question Answering (VQA), permitindo um treinamento eficaz de habilidades de compreensão visual detalhada a partir do zero. Em seguida, propomos o RewardMap, uma estrutura de RL em múltiplos estágios projetada para melhorar tanto a compreensão visual quanto as capacidades de raciocínio dos MLLMs. O RewardMap incorpora dois designs principais. Primeiro, introduzimos um design de recompensa consciente da dificuldade que incorpora recompensas de detalhe, abordando diretamente as recompensas esparsas enquanto fornece supervisão mais rica. Segundo, propomos um esquema de RL em múltiplos estágios que inicia o treinamento a partir de tarefas simples de percepção até tarefas complexas de raciocínio, oferecendo uma estratégia de inicialização mais eficaz do que o Ajuste Fino Supervisionado (SFT) convencional. Experimentos no ReasonMap e ReasonMap-Plus demonstram que cada componente do RewardMap contribui para ganhos consistentes de desempenho, enquanto sua combinação produz os melhores resultados. Além disso, modelos treinados com o RewardMap alcançam uma melhoria média de 3,47% em 6 benchmarks que abrangem raciocínio espacial, raciocínio visual detalhado e tarefas gerais além de mapas de trânsito, destacando capacidades aprimoradas de compreensão e raciocínio visual.
English
Fine-grained visual reasoning remains a core challenge for multimodal large language models (MLLMs). The recently introduced ReasonMap highlights this gap by showing that even advanced MLLMs struggle with spatial reasoning in structured and information-rich settings such as transit maps, a task of clear practical and scientific importance. However, standard reinforcement learning (RL) on such tasks is impeded by sparse rewards and unstable optimization. To address this, we first construct ReasonMap-Plus, an extended dataset that introduces dense reward signals through Visual Question Answering (VQA) tasks, enabling effective cold-start training of fine-grained visual understanding skills. Next, we propose RewardMap, a multi-stage RL framework designed to improve both visual understanding and reasoning capabilities of MLLMs. RewardMap incorporates two key designs. First, we introduce a difficulty-aware reward design that incorporates detail rewards, directly tackling the sparse rewards while providing richer supervision. Second, we propose a multi-stage RL scheme that bootstraps training from simple perception to complex reasoning tasks, offering a more effective cold-start strategy than conventional Supervised Fine-Tuning (SFT). Experiments on ReasonMap and ReasonMap-Plus demonstrate that each component of RewardMap contributes to consistent performance gains, while their combination yields the best results. Moreover, models trained with RewardMap achieve an average improvement of 3.47% across 6 benchmarks spanning spatial reasoning, fine-grained visual reasoning, and general tasks beyond transit maps, underscoring enhanced visual understanding and reasoning capabilities.
PDF172October 3, 2025