ChatPaper.aiChatPaper

RewardMap: Преодоление проблемы разреженных вознаграждений в детализированном визуальном анализе с помощью многоэтапного обучения с подкреплением

RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

October 2, 2025
Авторы: Sicheng Feng, Kaiwen Tuo, Song Wang, Lingdong Kong, Jianke Zhu, Huan Wang
cs.AI

Аннотация

Детализированное визуальное рассуждение остается ключевой проблемой для мультимодальных больших языковых моделей (MLLM). Недавно представленный ReasonMap подчеркивает этот разрыв, показывая, что даже продвинутые MLLM испытывают трудности с пространственным рассуждением в структурированных и насыщенных информацией контекстах, таких как схемы транспорта, что является задачей, имеющей очевидное практическое и научное значение. Однако стандартное обучение с подкреплением (RL) на таких задачах затруднено из-за редких наград и нестабильной оптимизации. Чтобы решить эту проблему, мы сначала создаем ReasonMap-Plus, расширенный набор данных, который вводит плотные сигналы наград через задачи визуального ответа на вопросы (VQA), что позволяет эффективно обучать навыки детализированного визуального понимания с нуля. Затем мы предлагаем RewardMap, многоэтапную RL-структуру, предназначенную для улучшения как визуального понимания, так и способностей к рассуждению MLLM. RewardMap включает два ключевых элемента. Во-первых, мы вводим дизайн наград, учитывающий сложность, который включает детализированные награды, напрямую решая проблему редких наград и предоставляя более богатый контроль. Во-вторых, мы предлагаем многоэтапную RL-схему, которая начинает обучение с простых задач восприятия и переходит к сложным задачам рассуждения, предлагая более эффективную стратегию обучения с нуля по сравнению с традиционной тонкой настройкой под наблюдением (SFT). Эксперименты на ReasonMap и ReasonMap-Plus демонстрируют, что каждый компонент RewardMap вносит вклад в устойчивое улучшение производительности, а их комбинация дает наилучшие результаты. Более того, модели, обученные с использованием RewardMap, достигают среднего улучшения на 3,47% по 6 тестам, охватывающим пространственное рассуждение, детализированное визуальное рассуждение и общие задачи за пределами схем транспорта, что подчеркивает улучшенные способности визуального понимания и рассуждения.
English
Fine-grained visual reasoning remains a core challenge for multimodal large language models (MLLMs). The recently introduced ReasonMap highlights this gap by showing that even advanced MLLMs struggle with spatial reasoning in structured and information-rich settings such as transit maps, a task of clear practical and scientific importance. However, standard reinforcement learning (RL) on such tasks is impeded by sparse rewards and unstable optimization. To address this, we first construct ReasonMap-Plus, an extended dataset that introduces dense reward signals through Visual Question Answering (VQA) tasks, enabling effective cold-start training of fine-grained visual understanding skills. Next, we propose RewardMap, a multi-stage RL framework designed to improve both visual understanding and reasoning capabilities of MLLMs. RewardMap incorporates two key designs. First, we introduce a difficulty-aware reward design that incorporates detail rewards, directly tackling the sparse rewards while providing richer supervision. Second, we propose a multi-stage RL scheme that bootstraps training from simple perception to complex reasoning tasks, offering a more effective cold-start strategy than conventional Supervised Fine-Tuning (SFT). Experiments on ReasonMap and ReasonMap-Plus demonstrate that each component of RewardMap contributes to consistent performance gains, while their combination yields the best results. Moreover, models trained with RewardMap achieve an average improvement of 3.47% across 6 benchmarks spanning spatial reasoning, fine-grained visual reasoning, and general tasks beyond transit maps, underscoring enhanced visual understanding and reasoning capabilities.
PDF172October 3, 2025