Spotlight op Tokenperceptie voor Multimodale Reinforcement Learning
Spotlight on Token Perception for Multimodal Reinforcement Learning
October 10, 2025
Auteurs: Siyuan Huang, Xiaoye Qu, Yafu Li, Yun Luo, Zefeng He, Daizong Liu, Yu Cheng
cs.AI
Samenvatting
Hoewel Reinforcement Learning met Verifieerbare Beloningen (RLVR) de redeneervaardigheden van Grote Visueel-Taalmodellen (LVLMs) heeft verbeterd, negeren de meeste bestaande methoden in multimodale redenering de cruciale rol van visuele perceptie binnen het RLVR-optimalisatieproces. In dit artikel ondernemen we een baanbrekende verkenning van multimodale RLVR vanuit het nieuwe perspectief van tokenperceptie, die de visuele afhankelijkheid van elke gegenereerde token meet. Met een gedetailleerde analyse van Chain-of-Thought (CoT)-processen ontdekken we twee belangrijke inzichten: ten eerste is tokenperceptie in een rollout-trajectory spaarzaam verdeeld, waarbij slechts een klein deel van de tokens een hoge visuele afhankelijkheid heeft voor visueel onderbouwde redenering; ten tweede vertonen verschillende trajectories een aanzienlijke divergentie in hun algehele visuele afhankelijkheid. Op basis van deze observaties stellen we Visually-Perceptive Policy Optimization (VPPO) voor, een nieuw policy gradient-algoritme dat expliciet gebruikmaakt van tokenperceptie om het leersignaal te verfijnen. Specifiek bereikt VPPO dit via een dubbel mechanisme: het herweegt het voordeel van een trajectory op basis van de algehele visuele afhankelijkheid, en richt policy-updates uitsluitend op perceptueel cruciale tokens. Op een uitgebreide set van acht perceptie- en redeneerbenchmarks toont VPPO aanzienlijke verbeteringen ten opzichte van toonaangevende open-source RL-getunede modellen, waarbij de effectiviteit consistent wordt gevalideerd op zowel 7B- als 32B-modelschalen. Onze bevindingen vestigen niet alleen een nieuw tokenniveau perceptueel perspectief voor het analyseren van multimodale RLVR, maar presenteren ook een nieuwe en effectieve optimalisatiestrategie om de multimodale redeneervaardigheden van LVLMs aanzienlijk te verbeteren.
English
While Reinforcement Learning with Verifiable Rewards (RLVR) has advanced the
reasoning capabilities of Large Vision-Language Models (LVLMs), most existing
methods in multimodal reasoning neglect the critical role of visual perception
within the RLVR optimization process. In this paper, we undertake a pioneering
exploration of multimodal RLVR through the novel perspective of token
perception, which measures the visual dependency of each generated token. With
a granular analysis of Chain-of-Thought (CoT) processes, we uncover two key
insights: first, token perception in a rollout trajectory is sparsely
distributed, where only a small fraction of tokens have high visual dependency
for visually-grounded reasoning; second, different trajectories exhibit
significant divergence in their overall visual dependency. Based on these
observations, we propose Visually-Perceptive Policy Optimization (VPPO), a
novel policy gradient algorithm that explicitly leverages token perception to
refine the learning signal. Specifically, VPPO achieves this through a dual
mechanism: it reweights a trajectory's advantage by its overall visual
dependency, and focuses policy updates exclusively on perceptually pivotal
tokens. On a comprehensive suite of eight perception and reasoning benchmarks,
VPPO demonstrates substantial gains over leading open-source RL-tuned models,
with its effectiveness consistently validated across 7B and 32B model scales.
Our findings not only establish a new token-level perceptual perspective for
analyzing multimodal RLVR but also present a novel and effective optimization
strategy to significantly enhance the multimodal reasoning capabilities of
LVLMs.