Foco na Percepção de Tokens para Aprendizado por Reforço Multimodal
Spotlight on Token Perception for Multimodal Reinforcement Learning
October 10, 2025
Autores: Siyuan Huang, Xiaoye Qu, Yafu Li, Yun Luo, Zefeng He, Daizong Liu, Yu Cheng
cs.AI
Resumo
Embora o Aprendizado por Reforço com Recompensas Verificáveis (RLVR) tenha avançado as capacidades de raciocínio dos Grandes Modelos de Visão e Linguagem (LVLMs), a maioria dos métodos existentes em raciocínio multimodal negligencia o papel crítico da percepção visual dentro do processo de otimização do RLVR. Neste artigo, realizamos uma exploração pioneira do RLVR multimodal através da nova perspectiva da percepção de tokens, que mede a dependência visual de cada token gerado. Com uma análise granular dos processos de Chain-of-Thought (CoT), descobrimos dois insights principais: primeiro, a percepção de tokens em uma trajetória de rollout é distribuída de forma esparsa, onde apenas uma pequena fração dos tokens possui alta dependência visual para raciocínio baseado em visão; segundo, diferentes trajetórias exibem divergência significativa em sua dependência visual geral. Com base nessas observações, propomos a Otimização de Política Visualmente Perceptiva (VPPO), um novo algoritmo de gradiente de política que utiliza explicitamente a percepção de tokens para refinar o sinal de aprendizado. Especificamente, o VPPO alcança isso através de um mecanismo duplo: ele reponde a vantagem de uma trajetória pela sua dependência visual geral e concentra as atualizações de política exclusivamente em tokens perceptualmente cruciais. Em um conjunto abrangente de oito benchmarks de percepção e raciocínio, o VPPO demonstra ganhos substanciais em relação aos principais modelos sintonizados por RL de código aberto, com sua eficácia consistentemente validada em escalas de modelos de 7B e 32B. Nossas descobertas não apenas estabelecem uma nova perspectiva perceptual em nível de token para analisar o RLVR multimodal, mas também apresentam uma estratégia de otimização nova e eficaz para aprimorar significativamente as capacidades de raciocínio multimodal dos LVLMs.
English
While Reinforcement Learning with Verifiable Rewards (RLVR) has advanced the
reasoning capabilities of Large Vision-Language Models (LVLMs), most existing
methods in multimodal reasoning neglect the critical role of visual perception
within the RLVR optimization process. In this paper, we undertake a pioneering
exploration of multimodal RLVR through the novel perspective of token
perception, which measures the visual dependency of each generated token. With
a granular analysis of Chain-of-Thought (CoT) processes, we uncover two key
insights: first, token perception in a rollout trajectory is sparsely
distributed, where only a small fraction of tokens have high visual dependency
for visually-grounded reasoning; second, different trajectories exhibit
significant divergence in their overall visual dependency. Based on these
observations, we propose Visually-Perceptive Policy Optimization (VPPO), a
novel policy gradient algorithm that explicitly leverages token perception to
refine the learning signal. Specifically, VPPO achieves this through a dual
mechanism: it reweights a trajectory's advantage by its overall visual
dependency, and focuses policy updates exclusively on perceptually pivotal
tokens. On a comprehensive suite of eight perception and reasoning benchmarks,
VPPO demonstrates substantial gains over leading open-source RL-tuned models,
with its effectiveness consistently validated across 7B and 32B model scales.
Our findings not only establish a new token-level perceptual perspective for
analyzing multimodal RLVR but also present a novel and effective optimization
strategy to significantly enhance the multimodal reasoning capabilities of
LVLMs.