Optimisation de Politique Consciente de la Perception pour le Raisonnement Multimodal
Perception-Aware Policy Optimization for Multimodal Reasoning
July 8, 2025
papers.authors: Zhenhailong Wang, Xuehang Guo, Sofia Stoica, Haiyang Xu, Hongru Wang, Hyeonjeong Ha, Xiusi Chen, Yangyi Chen, Ming Yan, Fei Huang, Heng Ji
cs.AI
papers.abstract
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) s'est avéré être une stratégie hautement efficace pour doter les grands modèles de langage (LLM) de solides capacités de raisonnement multi-étapes. Cependant, sa conception et ses optimisations restent adaptées à des domaines purement textuels, ce qui entraîne des performances sous-optimales lorsqu'elles sont appliquées à des tâches de raisonnement multimodal. En particulier, nous observons qu'une source majeure d'erreur dans le raisonnement multimodal actuel réside dans la perception des entrées visuelles. Pour remédier à ce goulot d'étranglement, nous proposons l'Optimisation de Politique Consciente de la Perception (PAPO), une extension simple mais efficace de GRPO qui encourage le modèle à apprendre à percevoir tout en apprenant à raisonner, entièrement à partir de signaux de supervision internes. Notamment, PAPO ne repose pas sur une curation de données supplémentaire, des modèles de récompense externes ou des modèles propriétaires. Plus précisément, nous introduisons la Perte de Perception Implicite sous la forme d'un terme de divergence KL dans l'objectif GRPO, ce qui, malgré sa simplicité, apporte des améliorations globales significatives (4,4 %) sur divers benchmarks multimodaux. Les améliorations sont plus marquées, approchant 8,0 %, sur les tâches fortement dépendantes de la vision. Nous observons également une réduction substantielle (30,5 %) des erreurs de perception, indiquant des capacités perceptives améliorées avec PAPO. Nous menons une analyse approfondie de PAPO et identifions un problème unique de piratage de la perte, que nous analysons rigoureusement et atténuons grâce à une Perte d'Entropie Double. Globalement, notre travail introduit une intégration plus profonde de la supervision consciente de la perception dans les objectifs d'apprentissage RLVR et pose les bases d'un nouveau cadre RL qui encourage le raisonnement visuellement ancré. Page du projet : https://mikewangwzhl.github.io/PAPO.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has proven to be a
highly effective strategy for endowing Large Language Models (LLMs) with robust
multi-step reasoning abilities. However, its design and optimizations remain
tailored to purely textual domains, resulting in suboptimal performance when
applied to multimodal reasoning tasks. In particular, we observe that a major
source of error in current multimodal reasoning lies in the perception of
visual inputs. To address this bottleneck, we propose Perception-Aware Policy
Optimization (PAPO), a simple yet effective extension of GRPO that encourages
the model to learn to perceive while learning to reason, entirely from internal
supervision signals. Notably, PAPO does not rely on additional data curation,
external reward models, or proprietary models. Specifically, we introduce the
Implicit Perception Loss in the form of a KL divergence term to the GRPO
objective, which, despite its simplicity, yields significant overall
improvements (4.4%) on diverse multimodal benchmarks. The improvements are more
pronounced, approaching 8.0%, on tasks with high vision dependency. We also
observe a substantial reduction (30.5%) in perception errors, indicating
improved perceptual capabilities with PAPO. We conduct comprehensive analysis
of PAPO and identify a unique loss hacking issue, which we rigorously analyze
and mitigate through a Double Entropy Loss. Overall, our work introduces a
deeper integration of perception-aware supervision into RLVR learning
objectives and lays the groundwork for a new RL framework that encourages
visually grounded reasoning. Project page: https://mikewangwzhl.github.io/PAPO.