ChatPaper.aiChatPaper

RewardMap: Affrontare le Ricompense Sparse nel Ragionamento Visivo Fine-Grained attraverso l'Apprendimento per Rinforzo Multi-Stage

RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

October 2, 2025
Autori: Sicheng Feng, Kaiwen Tuo, Song Wang, Lingdong Kong, Jianke Zhu, Huan Wang
cs.AI

Abstract

Il ragionamento visivo fine-grained rimane una sfida fondamentale per i modelli linguistici multimodali di grandi dimensioni (MLLM). Il recente ReasonMap evidenzia questa lacuna dimostrando che anche gli MLLM avanzati faticano nel ragionamento spaziale in contesti strutturati e ricchi di informazioni come le mappe di transito, un compito di chiara importanza pratica e scientifica. Tuttavia, il reinforcement learning (RL) standard su tali compiti è ostacolato da ricompense sparse e ottimizzazione instabile. Per affrontare questo problema, abbiamo prima costruito ReasonMap-Plus, un dataset esteso che introduce segnali di ricompensa densi attraverso task di Visual Question Answering (VQA), consentendo un addestramento efficace in fase di cold-start per le abilità di comprensione visiva fine-grained. Successivamente, proponiamo RewardMap, un framework RL multi-stage progettato per migliorare sia la comprensione visiva che le capacità di ragionamento degli MLLM. RewardMap incorpora due design chiave. In primo luogo, introduciamo un design di ricompensa sensibile alla difficoltà che include ricompense dettagliate, affrontando direttamente il problema delle ricompense sparse fornendo una supervisione più ricca. In secondo luogo, proponiamo uno schema RL multi-stage che avvia l'addestramento da task di percezione semplice a task di ragionamento complesso, offrendo una strategia di cold-start più efficace rispetto al tradizionale Supervised Fine-Tuning (SFT). Gli esperimenti su ReasonMap e ReasonMap-Plus dimostrano che ogni componente di RewardMap contribuisce a guadagni di prestazioni consistenti, mentre la loro combinazione produce i migliori risultati. Inoltre, i modelli addestrati con RewardMap raggiungono un miglioramento medio del 3,47% su 6 benchmark che spaziano dal ragionamento spaziale, al ragionamento visivo fine-grained, a task generali oltre le mappe di transito, sottolineando una migliore comprensione visiva e capacità di ragionamento.
English
Fine-grained visual reasoning remains a core challenge for multimodal large language models (MLLMs). The recently introduced ReasonMap highlights this gap by showing that even advanced MLLMs struggle with spatial reasoning in structured and information-rich settings such as transit maps, a task of clear practical and scientific importance. However, standard reinforcement learning (RL) on such tasks is impeded by sparse rewards and unstable optimization. To address this, we first construct ReasonMap-Plus, an extended dataset that introduces dense reward signals through Visual Question Answering (VQA) tasks, enabling effective cold-start training of fine-grained visual understanding skills. Next, we propose RewardMap, a multi-stage RL framework designed to improve both visual understanding and reasoning capabilities of MLLMs. RewardMap incorporates two key designs. First, we introduce a difficulty-aware reward design that incorporates detail rewards, directly tackling the sparse rewards while providing richer supervision. Second, we propose a multi-stage RL scheme that bootstraps training from simple perception to complex reasoning tasks, offering a more effective cold-start strategy than conventional Supervised Fine-Tuning (SFT). Experiments on ReasonMap and ReasonMap-Plus demonstrate that each component of RewardMap contributes to consistent performance gains, while their combination yields the best results. Moreover, models trained with RewardMap achieve an average improvement of 3.47% across 6 benchmarks spanning spatial reasoning, fine-grained visual reasoning, and general tasks beyond transit maps, underscoring enhanced visual understanding and reasoning capabilities.
PDF172October 3, 2025