ChatPaper.aiChatPaper

RewardMap: Het aanpakken van schaarse beloningen in fijnmazige visuele redenering via meerfasig reinforcement learning

RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

October 2, 2025
Auteurs: Sicheng Feng, Kaiwen Tuo, Song Wang, Lingdong Kong, Jianke Zhu, Huan Wang
cs.AI

Samenvatting

Fijnmazig visueel redeneren blijft een kernuitdaging voor multimodale grote taalmodellen (MLLMs). Het recent geïntroduceerde ReasonMap benadrukt deze kloof door aan te tonen dat zelfs geavanceerde MLLMs moeite hebben met ruimtelijk redeneren in gestructureerde en informatie-rijke omgevingen zoals vervoerskaarten, een taak van duidelijk praktisch en wetenschappelijk belang. Echter, standaard reinforcement learning (RL) op dergelijke taken wordt belemmerd door schaarse beloningen en instabiele optimalisatie. Om dit aan te pakken, construeren we eerst ReasonMap-Plus, een uitgebreide dataset die dichte beloningssignalen introduceert via Visual Question Answering (VQA) taken, waardoor effectieve cold-start training van fijnmazige visuele begripsvaardigheden mogelijk wordt. Vervolgens stellen we RewardMap voor, een multi-stage RL-framework ontworpen om zowel het visuele begrip als de redeneervaardigheden van MLLMs te verbeteren. RewardMap bevat twee belangrijke ontwerpen. Ten eerste introduceren we een moeilijkheidsbewuste beloningsontwerp dat detailbeloningen incorporeert, waardoor schaarse beloningen direct worden aangepakt en rijkere supervisie wordt geboden. Ten tweede stellen we een multi-stage RL-schema voor dat de training bootstrapt van eenvoudige perceptie naar complexe redeneertaken, wat een effectievere cold-start strategie biedt dan conventionele Supervised Fine-Tuning (SFT). Experimenten op ReasonMap en ReasonMap-Plus tonen aan dat elk onderdeel van RewardMap bijdraagt aan consistente prestatieverbeteringen, terwijl hun combinatie de beste resultaten oplevert. Bovendien behalen modellen getraind met RewardMap een gemiddelde verbetering van 3,47% over 6 benchmarks die ruimtelijk redeneren, fijnmazig visueel redeneren en algemene taken buiten vervoerskaarten omvatten, wat het verbeterde visuele begrip en redeneervermogen onderstreept.
English
Fine-grained visual reasoning remains a core challenge for multimodal large language models (MLLMs). The recently introduced ReasonMap highlights this gap by showing that even advanced MLLMs struggle with spatial reasoning in structured and information-rich settings such as transit maps, a task of clear practical and scientific importance. However, standard reinforcement learning (RL) on such tasks is impeded by sparse rewards and unstable optimization. To address this, we first construct ReasonMap-Plus, an extended dataset that introduces dense reward signals through Visual Question Answering (VQA) tasks, enabling effective cold-start training of fine-grained visual understanding skills. Next, we propose RewardMap, a multi-stage RL framework designed to improve both visual understanding and reasoning capabilities of MLLMs. RewardMap incorporates two key designs. First, we introduce a difficulty-aware reward design that incorporates detail rewards, directly tackling the sparse rewards while providing richer supervision. Second, we propose a multi-stage RL scheme that bootstraps training from simple perception to complex reasoning tasks, offering a more effective cold-start strategy than conventional Supervised Fine-Tuning (SFT). Experiments on ReasonMap and ReasonMap-Plus demonstrate that each component of RewardMap contributes to consistent performance gains, while their combination yields the best results. Moreover, models trained with RewardMap achieve an average improvement of 3.47% across 6 benchmarks spanning spatial reasoning, fine-grained visual reasoning, and general tasks beyond transit maps, underscoring enhanced visual understanding and reasoning capabilities.
PDF172October 3, 2025