ChatPaper.aiChatPaper

RewardMap: Abordando las Recompensas Dispersas en el Razonamiento Visual de Granularidad Fina mediante Aprendizaje por Refuerzo Multietapa

RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

October 2, 2025
Autores: Sicheng Feng, Kaiwen Tuo, Song Wang, Lingdong Kong, Jianke Zhu, Huan Wang
cs.AI

Resumen

El razonamiento visual detallado sigue siendo un desafío fundamental para los modelos de lenguaje multimodal de gran escala (MLLMs). El recientemente introducido ReasonMap destaca esta brecha al demostrar que incluso los MLLMs avanzados tienen dificultades con el razonamiento espacial en entornos estructurados y ricos en información, como los mapas de tránsito, una tarea de clara importancia práctica y científica. Sin embargo, el aprendizaje por refuerzo (RL) estándar en estas tareas se ve obstaculizado por recompensas dispersas y una optimización inestable. Para abordar esto, primero construimos ReasonMap-Plus, un conjunto de datos extendido que introduce señales de recompensa densas a través de tareas de Visual Question Answering (VQA), permitiendo un entrenamiento efectivo desde cero en habilidades de comprensión visual detallada. A continuación, proponemos RewardMap, un marco de RL de múltiples etapas diseñado para mejorar tanto la comprensión visual como las capacidades de razonamiento de los MLLMs. RewardMap incorpora dos diseños clave. Primero, introducimos un diseño de recompensa consciente de la dificultad que incluye recompensas detalladas, abordando directamente el problema de las recompensas dispersas mientras proporciona una supervisión más rica. Segundo, proponemos un esquema de RL de múltiples etapas que inicia el entrenamiento desde tareas de percepción simples hasta tareas de razonamiento complejas, ofreciendo una estrategia de inicio más efectiva que el ajuste fino supervisado (SFT) convencional. Los experimentos en ReasonMap y ReasonMap-Plus demuestran que cada componente de RewardMap contribuye a mejoras consistentes en el rendimiento, mientras que su combinación produce los mejores resultados. Además, los modelos entrenados con RewardMap logran una mejora promedio del 3.47% en 6 benchmarks que abarcan razonamiento espacial, razonamiento visual detallado y tareas generales más allá de los mapas de tránsito, destacando capacidades mejoradas de comprensión y razonamiento visual.
English
Fine-grained visual reasoning remains a core challenge for multimodal large language models (MLLMs). The recently introduced ReasonMap highlights this gap by showing that even advanced MLLMs struggle with spatial reasoning in structured and information-rich settings such as transit maps, a task of clear practical and scientific importance. However, standard reinforcement learning (RL) on such tasks is impeded by sparse rewards and unstable optimization. To address this, we first construct ReasonMap-Plus, an extended dataset that introduces dense reward signals through Visual Question Answering (VQA) tasks, enabling effective cold-start training of fine-grained visual understanding skills. Next, we propose RewardMap, a multi-stage RL framework designed to improve both visual understanding and reasoning capabilities of MLLMs. RewardMap incorporates two key designs. First, we introduce a difficulty-aware reward design that incorporates detail rewards, directly tackling the sparse rewards while providing richer supervision. Second, we propose a multi-stage RL scheme that bootstraps training from simple perception to complex reasoning tasks, offering a more effective cold-start strategy than conventional Supervised Fine-Tuning (SFT). Experiments on ReasonMap and ReasonMap-Plus demonstrate that each component of RewardMap contributes to consistent performance gains, while their combination yields the best results. Moreover, models trained with RewardMap achieve an average improvement of 3.47% across 6 benchmarks spanning spatial reasoning, fine-grained visual reasoning, and general tasks beyond transit maps, underscoring enhanced visual understanding and reasoning capabilities.
PDF172October 3, 2025