Repenser l'optimisation de politique au niveau des tokens pour le raisonnement en chaîne multimodal

Résumé

Le raisonnement multimodal par chaîne de pensée (CoT) nécessite que les grands modèles vision-langage construisent des trajectoires de raisonnement qui entrelacent l'ancrage perceptif avec l'inférence multi-étapes. Cependant, les méthodes existantes d'Apprentissage par Renforcement avec Récompenses Vérifiables (RLVR) optimisent généralement le raisonnement à un niveau de granularité grossier, traitant le CoT de manière uniforme sans distinguer leurs degrés variables d'ancrage visuel. Dans ce travail, nous menons une analyse au niveau token des trajectoires de raisonnement multimodal et montrons qu'un raisonnement réussi se caractérise par des dynamiques token structurées reflétant à la fois l'ancrage perceptif et l'inférence exploratoire. Sur la base de cette analyse, nous proposons l'Optimisation de Politique Perception-Exploration (PEPO), qui dérive un a priori de perception à partir de la similarité des états cachés et l'intègre à l'entropie token via un mécanisme de gating lisse pour produire des avantages au niveau token. PEPO s'intègre de manière transparente avec les frameworks RLVR existants tels que GRPO et DAPO, ne nécessitant ni supervision supplémentaire ni branches auxiliaires. Des expériences approfondies sur divers benchmarks multimodaux démontrent des améliorations constantes et robustes par rapport aux solides bases de référence par renforcement, couvrant le raisonnement géométrique, l'ancrage visuel, la résolution d'énigmes visuelles et la classification en few-shot, tout en maintenant une dynamique d'apprentissage stable. Code : https://github.com/xzxxntxdy/PEPO

English

Multimodal Chain-of-Thought (CoT) reasoning requires large vision-language models to construct reasoning trajectories that interleave perceptual grounding with multi-step inference. However, existing Reinforcement Learning with Verifiable Rewards (RLVR) methods typically optimize reasoning at a coarse granularity, treating CoT uniformly without distinguishing their varying degrees of visual grounding. In this work, we conduct a token-level analysis of multimodal reasoning trajectories and show that successful reasoning is characterized by structured token dynamics reflecting both perceptual grounding and exploratory inference. Building upon this analysis, we propose Perception-Exploration Policy Optimization (PEPO), which derives a perception prior from hidden state similarity and integrates it with token entropy through a smooth gating mechanism to produce token-level advantages. PEPO integrates seamlessly with existing RLVR frameworks such as GRPO and DAPO, requiring neither additional supervision nor auxiliary branches. Extensive experiments across diverse multimodal benchmarks demonstrate consistent and robust improvements over strong RL baselines, spanning geometry reasoning, visual grounding, visual puzzle solving, and few-shot classification, while maintaining stable training dynamics. Code: https://github.com/xzxxntxdy/PEPO

Repenser l'optimisation de politique au niveau des tokens pour le raisonnement en chaîne multimodal

Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought

Résumé

Support