Enfoque en la Percepción de Tokens para el Aprendizaje por Refuerzo Multimodal
Spotlight on Token Perception for Multimodal Reinforcement Learning
October 10, 2025
Autores: Siyuan Huang, Xiaoye Qu, Yafu Li, Yun Luo, Zefeng He, Daizong Liu, Yu Cheng
cs.AI
Resumen
Si bien el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha avanzado las capacidades de razonamiento de los Modelos de Lenguaje y Visión a Gran Escala (LVLMs), la mayoría de los métodos existentes en razonamiento multimodal descuidan el papel crítico de la percepción visual dentro del proceso de optimización de RLVR. En este artículo, emprendemos una exploración pionera del RLVR multimodal a través de la novedosa perspectiva de la percepción de tokens, que mide la dependencia visual de cada token generado. Con un análisis granular de los procesos de Cadena de Pensamiento (CoT), descubrimos dos ideas clave: primero, la percepción de tokens en una trayectoria de despliegue está distribuida de manera dispersa, donde solo una pequeña fracción de tokens tiene una alta dependencia visual para el razonamiento basado en la visión; segundo, diferentes trayectorias muestran una divergencia significativa en su dependencia visual general. Basándonos en estas observaciones, proponemos la Optimización de Políticas Visualmente Perceptivas (VPPO), un novedoso algoritmo de gradiente de políticas que aprovecha explícitamente la percepción de tokens para refinar la señal de aprendizaje. Específicamente, VPPO logra esto a través de un mecanismo dual: reponderiza la ventaja de una trayectoria según su dependencia visual general y enfoca las actualizaciones de políticas exclusivamente en tokens perceptualmente cruciales. En un conjunto integral de ocho puntos de referencia de percepción y razonamiento, VPPO demuestra ganancias sustanciales sobre los principales modelos ajustados por RL de código abierto, con su efectividad validada consistentemente en escalas de modelos de 7B y 32B. Nuestros hallazgos no solo establecen una nueva perspectiva perceptual a nivel de token para analizar el RLVR multimodal, sino que también presentan una estrategia de optimización novedosa y efectiva para mejorar significativamente las capacidades de razonamiento multimodal de los LVLMs.
English
While Reinforcement Learning with Verifiable Rewards (RLVR) has advanced the
reasoning capabilities of Large Vision-Language Models (LVLMs), most existing
methods in multimodal reasoning neglect the critical role of visual perception
within the RLVR optimization process. In this paper, we undertake a pioneering
exploration of multimodal RLVR through the novel perspective of token
perception, which measures the visual dependency of each generated token. With
a granular analysis of Chain-of-Thought (CoT) processes, we uncover two key
insights: first, token perception in a rollout trajectory is sparsely
distributed, where only a small fraction of tokens have high visual dependency
for visually-grounded reasoning; second, different trajectories exhibit
significant divergence in their overall visual dependency. Based on these
observations, we propose Visually-Perceptive Policy Optimization (VPPO), a
novel policy gradient algorithm that explicitly leverages token perception to
refine the learning signal. Specifically, VPPO achieves this through a dual
mechanism: it reweights a trajectory's advantage by its overall visual
dependency, and focuses policy updates exclusively on perceptually pivotal
tokens. On a comprehensive suite of eight perception and reasoning benchmarks,
VPPO demonstrates substantial gains over leading open-source RL-tuned models,
with its effectiveness consistently validated across 7B and 32B model scales.
Our findings not only establish a new token-level perceptual perspective for
analyzing multimodal RLVR but also present a novel and effective optimization
strategy to significantly enhance the multimodal reasoning capabilities of
LVLMs.