RewardMap : Surmonter les récompenses clairsemées dans le raisonnement visuel granulaire grâce à l'apprentissage par renforcement multi-étapes
RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning
October 2, 2025
papers.authors: Sicheng Feng, Kaiwen Tuo, Song Wang, Lingdong Kong, Jianke Zhu, Huan Wang
cs.AI
papers.abstract
Le raisonnement visuel fin reste un défi central pour les modèles de langage multimodaux de grande taille (MLLMs). Le récent ReasonMap met en lumière cet écart en montrant que même les MLLMs avancés peinent à effectuer un raisonnement spatial dans des contextes structurés et riches en informations, comme les cartes de transport, une tâche d'importance pratique et scientifique évidente. Cependant, l'apprentissage par renforcement (RL) standard sur de telles tâches est entravé par des récompenses rares et une optimisation instable. Pour y remédier, nous construisons d'abord ReasonMap-Plus, un ensemble de données étendu qui introduit des signaux de récompense denses via des tâches de Question-Réponse Visuelle (VQA), permettant un entraînement efficace à froid des compétences de compréhension visuelle fine. Ensuite, nous proposons RewardMap, un cadre RL multi-étapes conçu pour améliorer à la fois la compréhension visuelle et les capacités de raisonnement des MLLMs. RewardMap intègre deux conceptions clés. Premièrement, nous introduisons une conception de récompense sensible à la difficulté qui inclut des récompenses détaillées, abordant directement le problème des récompenses rares tout en fournissant une supervision plus riche. Deuxièmement, nous proposons un schéma RL multi-étapes qui amorce l'entraînement à partir de tâches de perception simples vers des tâches de raisonnement complexes, offrant une stratégie de démarrage à froid plus efficace que le réglage fin supervisé (SFT) conventionnel. Les expériences sur ReasonMap et ReasonMap-Plus démontrent que chaque composant de RewardMap contribue à des gains de performance constants, tandis que leur combinaison donne les meilleurs résultats. De plus, les modèles entraînés avec RewardMap obtiennent une amélioration moyenne de 3,47 % sur 6 benchmarks couvrant le raisonnement spatial, le raisonnement visuel fin et des tâches générales au-delà des cartes de transport, soulignant des capacités améliorées de compréhension et de raisonnement visuels.
English
Fine-grained visual reasoning remains a core challenge for multimodal large
language models (MLLMs). The recently introduced ReasonMap highlights this gap
by showing that even advanced MLLMs struggle with spatial reasoning in
structured and information-rich settings such as transit maps, a task of clear
practical and scientific importance. However, standard reinforcement learning
(RL) on such tasks is impeded by sparse rewards and unstable optimization. To
address this, we first construct ReasonMap-Plus, an extended dataset that
introduces dense reward signals through Visual Question Answering (VQA) tasks,
enabling effective cold-start training of fine-grained visual understanding
skills. Next, we propose RewardMap, a multi-stage RL framework designed to
improve both visual understanding and reasoning capabilities of MLLMs.
RewardMap incorporates two key designs. First, we introduce a difficulty-aware
reward design that incorporates detail rewards, directly tackling the sparse
rewards while providing richer supervision. Second, we propose a multi-stage RL
scheme that bootstraps training from simple perception to complex reasoning
tasks, offering a more effective cold-start strategy than conventional
Supervised Fine-Tuning (SFT). Experiments on ReasonMap and ReasonMap-Plus
demonstrate that each component of RewardMap contributes to consistent
performance gains, while their combination yields the best results. Moreover,
models trained with RewardMap achieve an average improvement of 3.47% across 6
benchmarks spanning spatial reasoning, fine-grained visual reasoning, and
general tasks beyond transit maps, underscoring enhanced visual understanding
and reasoning capabilities.