Фокус на восприятии токенов для мультимодального обучения с подкреплением
Spotlight on Token Perception for Multimodal Reinforcement Learning
October 10, 2025
Авторы: Siyuan Huang, Xiaoye Qu, Yafu Li, Yun Luo, Zefeng He, Daizong Liu, Yu Cheng
cs.AI
Аннотация
Хотя обучение с подкреплением с верифицируемыми наградами (RLVR) продвинуло способности к рассуждению крупных визуально-языковых моделей (LVLMs), большинство существующих методов в мультимодальном рассуждении упускают критическую роль визуального восприятия в процессе оптимизации RLVR. В данной статье мы предпринимаем новаторское исследование мультимодального RLVR через новую перспективу восприятия токенов, которая измеряет визуальную зависимость каждого сгенерированного токена. С помощью детального анализа процессов цепочки рассуждений (CoT) мы выявляем два ключевых наблюдения: во-первых, восприятие токенов в траектории rollout распределено разреженно, где лишь небольшая часть токенов имеет высокую визуальную зависимость для визуально обоснованных рассуждений; во-вторых, разные траектории демонстрируют значительное расхождение в их общей визуальной зависимости. На основе этих наблюдений мы предлагаем Визуально-Восприимчивую Оптимизацию Политик (VPPO), новый алгоритм градиента политики, который явно использует восприятие токенов для уточнения сигнала обучения. В частности, VPPO достигает этого с помощью двойного механизма: она перевзвешивает преимущество траектории по её общей визуальной зависимости и фокусирует обновления политики исключительно на восприимчиво важных токенах. На комплексном наборе из восьми тестов на восприятие и рассуждение VPPO демонстрирует значительные улучшения по сравнению с ведущими моделями, настроенными с помощью RL, причём её эффективность последовательно подтверждается на масштабах моделей 7B и 32B. Наши результаты не только устанавливают новую перспективу анализа мультимодального RLVR на уровне токенов, но и представляют новую и эффективную стратегию оптимизации, которая значительно улучшает мультимодальные способности к рассуждению LVLMs.
English
While Reinforcement Learning with Verifiable Rewards (RLVR) has advanced the
reasoning capabilities of Large Vision-Language Models (LVLMs), most existing
methods in multimodal reasoning neglect the critical role of visual perception
within the RLVR optimization process. In this paper, we undertake a pioneering
exploration of multimodal RLVR through the novel perspective of token
perception, which measures the visual dependency of each generated token. With
a granular analysis of Chain-of-Thought (CoT) processes, we uncover two key
insights: first, token perception in a rollout trajectory is sparsely
distributed, where only a small fraction of tokens have high visual dependency
for visually-grounded reasoning; second, different trajectories exhibit
significant divergence in their overall visual dependency. Based on these
observations, we propose Visually-Perceptive Policy Optimization (VPPO), a
novel policy gradient algorithm that explicitly leverages token perception to
refine the learning signal. Specifically, VPPO achieves this through a dual
mechanism: it reweights a trajectory's advantage by its overall visual
dependency, and focuses policy updates exclusively on perceptually pivotal
tokens. On a comprehensive suite of eight perception and reasoning benchmarks,
VPPO demonstrates substantial gains over leading open-source RL-tuned models,
with its effectiveness consistently validated across 7B and 32B model scales.
Our findings not only establish a new token-level perceptual perspective for
analyzing multimodal RLVR but also present a novel and effective optimization
strategy to significantly enhance the multimodal reasoning capabilities of
LVLMs.