Focus sull'interpretazione dei token per l'apprendimento per rinforzo multimodale
Spotlight on Token Perception for Multimodal Reinforcement Learning
October 10, 2025
Autori: Siyuan Huang, Xiaoye Qu, Yafu Li, Yun Luo, Zefeng He, Daizong Liu, Yu Cheng
cs.AI
Abstract
Mentre il Reinforcement Learning con Ricompense Verificabili (RLVR) ha fatto progredire le capacità di ragionamento dei Modelli Linguistico-Visuali di Grande Scala (LVLM), la maggior parte dei metodi esistenti nel ragionamento multimodale trascura il ruolo cruciale della percezione visiva all'interno del processo di ottimizzazione RLVR. In questo articolo, intraprendiamo un'esplorazione pionieristica dell'RLVR multimodale attraverso la nuova prospettiva della percezione dei token, che misura la dipendenza visiva di ciascun token generato. Con un'analisi granulare dei processi Chain-of-Thought (CoT), scopriamo due intuizioni chiave: in primo luogo, la percezione dei token in una traiettoria di rollout è distribuita in modo sparso, dove solo una piccola frazione di token ha un'elevata dipendenza visiva per il ragionamento basato su elementi visivi; in secondo luogo, diverse traiettorie mostrano una significativa divergenza nella loro dipendenza visiva complessiva. Sulla base di queste osservazioni, proponiamo l'Optimizzazione della Politica con Percezione Visiva (VPPO), un nuovo algoritmo a gradiente di politica che sfrutta esplicitamente la percezione dei token per affinare il segnale di apprendimento. Nello specifico, VPPO raggiunge questo obiettivo attraverso un duplice meccanismo: ricalcola il vantaggio di una traiettoria in base alla sua dipendenza visiva complessiva e concentra gli aggiornamenti della politica esclusivamente sui token percettivamente cruciali. Su una suite completa di otto benchmark di percezione e ragionamento, VPPO dimostra guadagni sostanziali rispetto ai principali modelli ottimizzati con RL open-source, con la sua efficacia costantemente validata su scale di modelli da 7B e 32B. Le nostre scoperte non solo stabiliscono una nuova prospettiva percettiva a livello di token per analizzare l'RLVR multimodale, ma presentano anche una nuova ed efficace strategia di ottimizzazione per migliorare significativamente le capacità di ragionamento multimodale degli LVLM.
English
While Reinforcement Learning with Verifiable Rewards (RLVR) has advanced the
reasoning capabilities of Large Vision-Language Models (LVLMs), most existing
methods in multimodal reasoning neglect the critical role of visual perception
within the RLVR optimization process. In this paper, we undertake a pioneering
exploration of multimodal RLVR through the novel perspective of token
perception, which measures the visual dependency of each generated token. With
a granular analysis of Chain-of-Thought (CoT) processes, we uncover two key
insights: first, token perception in a rollout trajectory is sparsely
distributed, where only a small fraction of tokens have high visual dependency
for visually-grounded reasoning; second, different trajectories exhibit
significant divergence in their overall visual dependency. Based on these
observations, we propose Visually-Perceptive Policy Optimization (VPPO), a
novel policy gradient algorithm that explicitly leverages token perception to
refine the learning signal. Specifically, VPPO achieves this through a dual
mechanism: it reweights a trajectory's advantage by its overall visual
dependency, and focuses policy updates exclusively on perceptually pivotal
tokens. On a comprehensive suite of eight perception and reasoning benchmarks,
VPPO demonstrates substantial gains over leading open-source RL-tuned models,
with its effectiveness consistently validated across 7B and 32B model scales.
Our findings not only establish a new token-level perceptual perspective for
analyzing multimodal RLVR but also present a novel and effective optimization
strategy to significantly enhance the multimodal reasoning capabilities of
LVLMs.