Fokus auf Token-Wahrnehmung für multimodales Reinforcement Learning
Spotlight on Token Perception for Multimodal Reinforcement Learning
October 10, 2025
papers.authors: Siyuan Huang, Xiaoye Qu, Yafu Li, Yun Luo, Zefeng He, Daizong Liu, Yu Cheng
cs.AI
papers.abstract
Während Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) die
Argumentationsfähigkeiten großer visuell-sprachlicher Modelle (LVLMs) vorangetrieben hat,
ignorieren die meisten bestehenden Methoden im multimodalen Denken die entscheidende Rolle
der visuellen Wahrnehmung im RLVR-Optimierungsprozess. In diesem Papier unternehmen wir
eine bahnbrechende Untersuchung von multimodalem RLVR aus der neuartigen Perspektive der
Token-Wahrnehmung, die die visuelle Abhängigkeit jedes generierten Tokens misst. Durch eine
detaillierte Analyse von Chain-of-Thought (CoT)-Prozessen decken wir zwei zentrale
Erkenntnisse auf: Erstens ist die Token-Wahrnehmung in einer Rollout-Trajektorie spärlich
verteilt, wobei nur ein kleiner Bruchteil der Token eine hohe visuelle Abhängigkeit für
visuell fundiertes Denken aufweist; zweitens zeigen verschiedene Trajektorien eine
signifikante Divergenz in ihrer gesamten visuellen Abhängigkeit. Basierend auf diesen
Beobachtungen schlagen wir Visually-Perceptive Policy Optimization (VPPO) vor, einen
neuartigen Policy-Gradient-Algorithmus, der explizit die Token-Wahrnehmung nutzt, um das
Lernsignal zu verfeinern. Konkret erreicht VPPO dies durch einen dualen Mechanismus: Es
gewichtet den Vorteil einer Trajektorie nach ihrer gesamten visuellen Abhängigkeit neu und
konzentriert Policy-Updates ausschließlich auf wahrnehmungsrelevante Tokens. In einer
umfassenden Suite von acht Wahrnehmungs- und Argumentations-Benchmarks zeigt VPPO
deutliche Verbesserungen gegenüber führenden Open-Source-RL-optimierten Modellen, wobei
seine Wirksamkeit konsistent über 7B- und 32B-Modellgrößen hinweg validiert wird. Unsere
Ergebnisse etablieren nicht nur eine neue Token-basierte Wahrnehmungsperspektive für die
Analyse von multimodalem RLVR, sondern präsentieren auch eine neuartige und effektive
Optimierungsstrategie, um die multimodalen Argumentationsfähigkeiten von LVLMs
signifikant zu verbessern.
English
While Reinforcement Learning with Verifiable Rewards (RLVR) has advanced the
reasoning capabilities of Large Vision-Language Models (LVLMs), most existing
methods in multimodal reasoning neglect the critical role of visual perception
within the RLVR optimization process. In this paper, we undertake a pioneering
exploration of multimodal RLVR through the novel perspective of token
perception, which measures the visual dependency of each generated token. With
a granular analysis of Chain-of-Thought (CoT) processes, we uncover two key
insights: first, token perception in a rollout trajectory is sparsely
distributed, where only a small fraction of tokens have high visual dependency
for visually-grounded reasoning; second, different trajectories exhibit
significant divergence in their overall visual dependency. Based on these
observations, we propose Visually-Perceptive Policy Optimization (VPPO), a
novel policy gradient algorithm that explicitly leverages token perception to
refine the learning signal. Specifically, VPPO achieves this through a dual
mechanism: it reweights a trajectory's advantage by its overall visual
dependency, and focuses policy updates exclusively on perceptually pivotal
tokens. On a comprehensive suite of eight perception and reasoning benchmarks,
VPPO demonstrates substantial gains over leading open-source RL-tuned models,
with its effectiveness consistently validated across 7B and 32B model scales.
Our findings not only establish a new token-level perceptual perspective for
analyzing multimodal RLVR but also present a novel and effective optimization
strategy to significantly enhance the multimodal reasoning capabilities of
LVLMs.