다중모달 강화학습을 위한 토큰 인식에 대한 스포트라이트
Spotlight on Token Perception for Multimodal Reinforcement Learning
October 10, 2025
저자: Siyuan Huang, Xiaoye Qu, Yafu Li, Yun Luo, Zefeng He, Daizong Liu, Yu Cheng
cs.AI
초록
검증 가능한 보상을 활용한 강화 학습(RLVR)이 대규모 시각-언어 모델(LVLMs)의 추론 능력을 발전시켰음에도 불구하고, 다중모달 추론 분야의 대부분의 기존 방법들은 RLVR 최적화 과정에서 시각적 인식의 중요한 역할을 간과해 왔습니다. 본 논문에서는 생성된 각 토큰의 시각적 의존성을 측정하는 토큰 인식이라는 새로운 관점을 통해 다중모달 RLVR을 선구적으로 탐구합니다. 사고의 연쇄(CoT) 과정을 세밀하게 분석함으로써 두 가지 핵심 통찰을 도출했습니다: 첫째, 롤아웃 궤적에서의 토큰 인식은 희소하게 분포되어 있으며, 시각적으로 근거 있는 추론을 위해 높은 시각적 의존성을 가지는 토큰은 극히 일부에 불과합니다; 둘째, 서로 다른 궤적들은 전체적인 시각적 의존성에서 상당한 차이를 보입니다. 이러한 관찰을 바탕으로, 우리는 토큰 인식을 명시적으로 활용하여 학습 신호를 개선하는 새로운 정책 경사 알고리즘인 시각적 인식 정책 최적화(VPPO)를 제안합니다. 구체적으로, VPPO는 이중 메커니즘을 통해 이를 달성합니다: 궤적의 이점을 전체 시각적 의존성에 따라 재조정하고, 정책 업데이트를 인식적으로 중요한 토큰에만 집중합니다. 8개의 인식 및 추론 벤치마크에 대한 포괄적인 실험에서, VPPO는 주요 오픈소스 RL 튜닝 모델들을 상당히 능가하는 성능을 보였으며, 7B와 32B 모델 규모에서도 그 효과가 일관되게 검증되었습니다. 우리의 연구 결과는 다중모달 RLVR을 분석하기 위한 새로운 토큰 수준의 인식적 관점을 확립할 뿐만 아니라, LVLMs의 다중모달 추론 능력을 크게 향상시키는 새로운 최적화 전략을 제시합니다.
English
While Reinforcement Learning with Verifiable Rewards (RLVR) has advanced the
reasoning capabilities of Large Vision-Language Models (LVLMs), most existing
methods in multimodal reasoning neglect the critical role of visual perception
within the RLVR optimization process. In this paper, we undertake a pioneering
exploration of multimodal RLVR through the novel perspective of token
perception, which measures the visual dependency of each generated token. With
a granular analysis of Chain-of-Thought (CoT) processes, we uncover two key
insights: first, token perception in a rollout trajectory is sparsely
distributed, where only a small fraction of tokens have high visual dependency
for visually-grounded reasoning; second, different trajectories exhibit
significant divergence in their overall visual dependency. Based on these
observations, we propose Visually-Perceptive Policy Optimization (VPPO), a
novel policy gradient algorithm that explicitly leverages token perception to
refine the learning signal. Specifically, VPPO achieves this through a dual
mechanism: it reweights a trajectory's advantage by its overall visual
dependency, and focuses policy updates exclusively on perceptually pivotal
tokens. On a comprehensive suite of eight perception and reasoning benchmarks,
VPPO demonstrates substantial gains over leading open-source RL-tuned models,
with its effectiveness consistently validated across 7B and 32B model scales.
Our findings not only establish a new token-level perceptual perspective for
analyzing multimodal RLVR but also present a novel and effective optimization
strategy to significantly enhance the multimodal reasoning capabilities of
LVLMs.