Фокус на восприятии токенов для мультимодального обучения с подкреплением

Аннотация

Хотя обучение с подкреплением с верифицируемыми наградами (RLVR) продвинуло способности к рассуждению крупных визуально-языковых моделей (LVLMs), большинство существующих методов в мультимодальном рассуждении упускают критическую роль визуального восприятия в процессе оптимизации RLVR. В данной статье мы предпринимаем новаторское исследование мультимодального RLVR через новую перспективу восприятия токенов, которая измеряет визуальную зависимость каждого сгенерированного токена. С помощью детального анализа процессов цепочки рассуждений (CoT) мы выявляем два ключевых наблюдения: во-первых, восприятие токенов в траектории rollout распределено разреженно, где лишь небольшая часть токенов имеет высокую визуальную зависимость для визуально обоснованных рассуждений; во-вторых, разные траектории демонстрируют значительное расхождение в их общей визуальной зависимости. На основе этих наблюдений мы предлагаем Визуально-Восприимчивую Оптимизацию Политик (VPPO), новый алгоритм градиента политики, который явно использует восприятие токенов для уточнения сигнала обучения. В частности, VPPO достигает этого с помощью двойного механизма: она перевзвешивает преимущество траектории по её общей визуальной зависимости и фокусирует обновления политики исключительно на восприимчиво важных токенах. На комплексном наборе из восьми тестов на восприятие и рассуждение VPPO демонстрирует значительные улучшения по сравнению с ведущими моделями, настроенными с помощью RL, причём её эффективность последовательно подтверждается на масштабах моделей 7B и 32B. Наши результаты не только устанавливают новую перспективу анализа мультимодального RLVR на уровне токенов, но и представляют новую и эффективную стратегию оптимизации, которая значительно улучшает мультимодальные способности к рассуждению LVLMs.

English

While Reinforcement Learning with Verifiable Rewards (RLVR) has advanced the reasoning capabilities of Large Vision-Language Models (LVLMs), most existing methods in multimodal reasoning neglect the critical role of visual perception within the RLVR optimization process. In this paper, we undertake a pioneering exploration of multimodal RLVR through the novel perspective of token perception, which measures the visual dependency of each generated token. With a granular analysis of Chain-of-Thought (CoT) processes, we uncover two key insights: first, token perception in a rollout trajectory is sparsely distributed, where only a small fraction of tokens have high visual dependency for visually-grounded reasoning; second, different trajectories exhibit significant divergence in their overall visual dependency. Based on these observations, we propose Visually-Perceptive Policy Optimization (VPPO), a novel policy gradient algorithm that explicitly leverages token perception to refine the learning signal. Specifically, VPPO achieves this through a dual mechanism: it reweights a trajectory's advantage by its overall visual dependency, and focuses policy updates exclusively on perceptually pivotal tokens. On a comprehensive suite of eight perception and reasoning benchmarks, VPPO demonstrates substantial gains over leading open-source RL-tuned models, with its effectiveness consistently validated across 7B and 32B model scales. Our findings not only establish a new token-level perceptual perspective for analyzing multimodal RLVR but also present a novel and effective optimization strategy to significantly enhance the multimodal reasoning capabilities of LVLMs.

Фокус на восприятии токенов для мультимодального обучения с подкреплением

Spotlight on Token Perception for Multimodal Reinforcement Learning

Аннотация

Support