ChatPaper.aiChatPaper

マルチモーダル強化学習におけるトークン知覚のスポットライト

Spotlight on Token Perception for Multimodal Reinforcement Learning

October 10, 2025
著者: Siyuan Huang, Xiaoye Qu, Yafu Li, Yun Luo, Zefeng He, Daizong Liu, Yu Cheng
cs.AI

要旨

検証可能な報酬を用いた強化学習(RLVR)は大規模視覚言語モデル(LVLM)の推論能力を向上させてきたが、既存のマルチモーダル推論手法の多くは、RLVR最適化プロセスにおける視覚知覚の重要な役割を見落としている。本論文では、生成された各トークンの視覚依存度を測定するトークン知覚という新たな視点を通じて、マルチモーダルRLVRの先駆的な探求を行う。Chain-of-Thought(CoT)プロセスの詳細な分析を通じて、2つの重要な知見を明らかにした:第一に、ロールアウト軌跡におけるトークン知覚は疎に分布しており、視覚に基づく推論において高い視覚依存度を持つトークンはごく一部であること、第二に、異なる軌跡はその全体的な視覚依存度において著しい差異を示すことである。これらの観察に基づき、我々はトークン知覚を明示的に活用して学習信号を洗練させる新たな方策勾配アルゴリズム、視覚知覚型方策最適化(VPPO)を提案する。具体的には、VPPOは二重のメカニズムを通じてこれを実現する:軌跡のアドバンテージをその全体的な視覚依存度で再重み付けし、方策更新を知覚的に重要なトークンにのみ集中させる。8つの知覚および推論ベンチマークにおける包括的な評価において、VPPOは主要なオープンソースRLチューニングモデルを大幅に上回る性能を示し、その有効性は7Bおよび32Bモデルスケールにわたって一貫して検証された。我々の発見は、マルチモーダルRLVRを分析するための新たなトークンレベルの知覚的視点を確立するだけでなく、LVLMのマルチモーダル推論能力を大幅に向上させる新たで効果的な最適化戦略を提示するものである。
English
While Reinforcement Learning with Verifiable Rewards (RLVR) has advanced the reasoning capabilities of Large Vision-Language Models (LVLMs), most existing methods in multimodal reasoning neglect the critical role of visual perception within the RLVR optimization process. In this paper, we undertake a pioneering exploration of multimodal RLVR through the novel perspective of token perception, which measures the visual dependency of each generated token. With a granular analysis of Chain-of-Thought (CoT) processes, we uncover two key insights: first, token perception in a rollout trajectory is sparsely distributed, where only a small fraction of tokens have high visual dependency for visually-grounded reasoning; second, different trajectories exhibit significant divergence in their overall visual dependency. Based on these observations, we propose Visually-Perceptive Policy Optimization (VPPO), a novel policy gradient algorithm that explicitly leverages token perception to refine the learning signal. Specifically, VPPO achieves this through a dual mechanism: it reweights a trajectory's advantage by its overall visual dependency, and focuses policy updates exclusively on perceptually pivotal tokens. On a comprehensive suite of eight perception and reasoning benchmarks, VPPO demonstrates substantial gains over leading open-source RL-tuned models, with its effectiveness consistently validated across 7B and 32B model scales. Our findings not only establish a new token-level perceptual perspective for analyzing multimodal RLVR but also present a novel and effective optimization strategy to significantly enhance the multimodal reasoning capabilities of LVLMs.
PDF353October 14, 2025