Mise en lumière de la perception des tokens pour l'apprentissage par renforcement multimodal

papers.abstract

Bien que l'apprentissage par renforcement avec récompenses vérifiables (RLVR) ait fait progresser les capacités de raisonnement des grands modèles vision-langage (LVLMs), la plupart des méthodes existantes en raisonnement multimodal négligent le rôle crucial de la perception visuelle dans le processus d'optimisation du RLVR. Dans cet article, nous entreprenons une exploration pionnière du RLVR multimodal à travers la perspective novatrice de la perception des tokens, qui mesure la dépendance visuelle de chaque token généré. Grâce à une analyse granulaire des processus de chaîne de pensée (CoT), nous dévoilons deux insights clés : premièrement, la perception des tokens dans une trajectoire de déploiement est distribuée de manière éparse, où seule une petite fraction des tokens présente une forte dépendance visuelle pour un raisonnement ancré visuellement ; deuxièmement, différentes trajectoires montrent une divergence significative dans leur dépendance visuelle globale. Sur la base de ces observations, nous proposons l'Optimisation de Politique à Perception Visuelle (VPPO), un nouvel algorithme de gradient de politique qui exploite explicitement la perception des tokens pour affiner le signal d'apprentissage. Plus précisément, VPPO y parvient grâce à un double mécanisme : il repondère l'avantage d'une trajectoire en fonction de sa dépendance visuelle globale et concentre les mises à jour de politique exclusivement sur les tokens perceptuellement pivots. Sur une suite complète de huit benchmarks de perception et de raisonnement, VPPO démontre des gains substantiels par rapport aux principaux modèles open-source optimisés par RL, avec une efficacité validée de manière cohérente sur des échelles de modèles de 7B et 32B. Nos résultats établissent non seulement une nouvelle perspective perceptuelle au niveau des tokens pour analyser le RLVR multimodal, mais présentent également une stratégie d'optimisation novatrice et efficace pour améliorer significativement les capacités de raisonnement multimodal des LVLMs.

English

While Reinforcement Learning with Verifiable Rewards (RLVR) has advanced the reasoning capabilities of Large Vision-Language Models (LVLMs), most existing methods in multimodal reasoning neglect the critical role of visual perception within the RLVR optimization process. In this paper, we undertake a pioneering exploration of multimodal RLVR through the novel perspective of token perception, which measures the visual dependency of each generated token. With a granular analysis of Chain-of-Thought (CoT) processes, we uncover two key insights: first, token perception in a rollout trajectory is sparsely distributed, where only a small fraction of tokens have high visual dependency for visually-grounded reasoning; second, different trajectories exhibit significant divergence in their overall visual dependency. Based on these observations, we propose Visually-Perceptive Policy Optimization (VPPO), a novel policy gradient algorithm that explicitly leverages token perception to refine the learning signal. Specifically, VPPO achieves this through a dual mechanism: it reweights a trajectory's advantage by its overall visual dependency, and focuses policy updates exclusively on perceptually pivotal tokens. On a comprehensive suite of eight perception and reasoning benchmarks, VPPO demonstrates substantial gains over leading open-source RL-tuned models, with its effectiveness consistently validated across 7B and 32B model scales. Our findings not only establish a new token-level perceptual perspective for analyzing multimodal RLVR but also present a novel and effective optimization strategy to significantly enhance the multimodal reasoning capabilities of LVLMs.

Mise en lumière de la perception des tokens pour l'apprentissage par renforcement multimodal

Spotlight on Token Perception for Multimodal Reinforcement Learning

papers.abstract

Support