RewardMap: Bewältigung spärlicher Belohnungen bei feingranularer visueller Argumentation durch mehrstufiges Reinforcement Learning
RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning
October 2, 2025
papers.authors: Sicheng Feng, Kaiwen Tuo, Song Wang, Lingdong Kong, Jianke Zhu, Huan Wang
cs.AI
papers.abstract
Fein granulierte visuelle Argumentation bleibt eine zentrale Herausforderung für multimodale große Sprachmodelle (MLLMs). Das kürzlich eingeführte ReasonMap verdeutlicht diese Lücke, indem es zeigt, dass selbst fortschrittliche MLLMs mit räumlicher Argumentation in strukturierten und informationsreichen Umgebungen wie U-Bahn-Plänen zu kämpfen haben – eine Aufgabe von klarer praktischer und wissenschaftlicher Bedeutung. Allerdings wird das Standard-Reinforcement-Learning (RL) bei solchen Aufgaben durch spärliche Belohnungen und instabile Optimierung behindert. Um dies zu adressieren, konstruieren wir zunächst ReasonMap-Plus, einen erweiterten Datensatz, der dichte Belohnungssignale durch Visual Question Answering (VQA)-Aufgaben einführt und so ein effektives Kaltstart-Training für fein granulierte visuelle Verständnisfähigkeiten ermöglicht. Anschließend schlagen wir RewardMap vor, ein mehrstufiges RL-Framework, das darauf abzielt, sowohl das visuelle Verständnis als auch die Argumentationsfähigkeiten von MLLMs zu verbessern. RewardMap integriert zwei Schlüsseldesigns. Erstens führen wir ein schwierigkeitsbewusstes Belohnungsdesign ein, das Detailbelohnungen beinhaltet und so direkt die spärlichen Belohnungen angeht, während es gleichzeitig eine reichhaltigere Überwachung bietet. Zweitens schlagen wir ein mehrstufiges RL-Schema vor, das das Training von einfacher Wahrnehmung zu komplexen Argumentationsaufgaben bootstrappt und damit eine effektivere Kaltstart-Strategie als das konventionelle Supervised Fine-Tuning (SFT) bietet. Experimente auf ReasonMap und ReasonMap-Plus zeigen, dass jede Komponente von RewardMap zu konsistenten Leistungssteigerungen beiträgt, während ihre Kombination die besten Ergebnisse liefert. Darüber hinaus erreichen Modelle, die mit RewardMap trainiert wurden, eine durchschnittliche Verbesserung von 3,47 % über 6 Benchmarks hinweg, die räumliche Argumentation, fein granulierte visuelle Argumentation und allgemeine Aufgaben über U-Bahn-Pläne hinaus abdecken, was die verbesserten visuellen Verständnis- und Argumentationsfähigkeiten unterstreicht.
English
Fine-grained visual reasoning remains a core challenge for multimodal large
language models (MLLMs). The recently introduced ReasonMap highlights this gap
by showing that even advanced MLLMs struggle with spatial reasoning in
structured and information-rich settings such as transit maps, a task of clear
practical and scientific importance. However, standard reinforcement learning
(RL) on such tasks is impeded by sparse rewards and unstable optimization. To
address this, we first construct ReasonMap-Plus, an extended dataset that
introduces dense reward signals through Visual Question Answering (VQA) tasks,
enabling effective cold-start training of fine-grained visual understanding
skills. Next, we propose RewardMap, a multi-stage RL framework designed to
improve both visual understanding and reasoning capabilities of MLLMs.
RewardMap incorporates two key designs. First, we introduce a difficulty-aware
reward design that incorporates detail rewards, directly tackling the sparse
rewards while providing richer supervision. Second, we propose a multi-stage RL
scheme that bootstraps training from simple perception to complex reasoning
tasks, offering a more effective cold-start strategy than conventional
Supervised Fine-Tuning (SFT). Experiments on ReasonMap and ReasonMap-Plus
demonstrate that each component of RewardMap contributes to consistent
performance gains, while their combination yields the best results. Moreover,
models trained with RewardMap achieve an average improvement of 3.47% across 6
benchmarks spanning spatial reasoning, fine-grained visual reasoning, and
general tasks beyond transit maps, underscoring enhanced visual understanding
and reasoning capabilities.