Mise en lumière de la perception des tokens pour l'apprentissage par renforcement multimodal
Spotlight on Token Perception for Multimodal Reinforcement Learning
October 10, 2025
papers.authors: Siyuan Huang, Xiaoye Qu, Yafu Li, Yun Luo, Zefeng He, Daizong Liu, Yu Cheng
cs.AI
papers.abstract
Bien que l'apprentissage par renforcement avec récompenses vérifiables (RLVR) ait fait progresser les capacités de raisonnement des grands modèles vision-langage (LVLMs), la plupart des méthodes existantes en raisonnement multimodal négligent le rôle crucial de la perception visuelle dans le processus d'optimisation du RLVR. Dans cet article, nous entreprenons une exploration pionnière du RLVR multimodal à travers la perspective novatrice de la perception des tokens, qui mesure la dépendance visuelle de chaque token généré. Grâce à une analyse granulaire des processus de chaîne de pensée (CoT), nous dévoilons deux insights clés : premièrement, la perception des tokens dans une trajectoire de déploiement est distribuée de manière éparse, où seule une petite fraction des tokens présente une forte dépendance visuelle pour un raisonnement ancré visuellement ; deuxièmement, différentes trajectoires montrent une divergence significative dans leur dépendance visuelle globale. Sur la base de ces observations, nous proposons l'Optimisation de Politique à Perception Visuelle (VPPO), un nouvel algorithme de gradient de politique qui exploite explicitement la perception des tokens pour affiner le signal d'apprentissage. Plus précisément, VPPO y parvient grâce à un double mécanisme : il repondère l'avantage d'une trajectoire en fonction de sa dépendance visuelle globale et concentre les mises à jour de politique exclusivement sur les tokens perceptuellement pivots. Sur une suite complète de huit benchmarks de perception et de raisonnement, VPPO démontre des gains substantiels par rapport aux principaux modèles open-source optimisés par RL, avec une efficacité validée de manière cohérente sur des échelles de modèles de 7B et 32B. Nos résultats établissent non seulement une nouvelle perspective perceptuelle au niveau des tokens pour analyser le RLVR multimodal, mais présentent également une stratégie d'optimisation novatrice et efficace pour améliorer significativement les capacités de raisonnement multimodal des LVLMs.
English
While Reinforcement Learning with Verifiable Rewards (RLVR) has advanced the
reasoning capabilities of Large Vision-Language Models (LVLMs), most existing
methods in multimodal reasoning neglect the critical role of visual perception
within the RLVR optimization process. In this paper, we undertake a pioneering
exploration of multimodal RLVR through the novel perspective of token
perception, which measures the visual dependency of each generated token. With
a granular analysis of Chain-of-Thought (CoT) processes, we uncover two key
insights: first, token perception in a rollout trajectory is sparsely
distributed, where only a small fraction of tokens have high visual dependency
for visually-grounded reasoning; second, different trajectories exhibit
significant divergence in their overall visual dependency. Based on these
observations, we propose Visually-Perceptive Policy Optimization (VPPO), a
novel policy gradient algorithm that explicitly leverages token perception to
refine the learning signal. Specifically, VPPO achieves this through a dual
mechanism: it reweights a trajectory's advantage by its overall visual
dependency, and focuses policy updates exclusively on perceptually pivotal
tokens. On a comprehensive suite of eight perception and reasoning benchmarks,
VPPO demonstrates substantial gains over leading open-source RL-tuned models,
with its effectiveness consistently validated across 7B and 32B model scales.
Our findings not only establish a new token-level perceptual perspective for
analyzing multimodal RLVR but also present a novel and effective optimization
strategy to significantly enhance the multimodal reasoning capabilities of
LVLMs.