ChatPaper.aiChatPaper

Optimisation de Politique Consciente de la Perception pour le Raisonnement Multimodal

Perception-Aware Policy Optimization for Multimodal Reasoning

July 8, 2025
papers.authors: Zhenhailong Wang, Xuehang Guo, Sofia Stoica, Haiyang Xu, Hongru Wang, Hyeonjeong Ha, Xiusi Chen, Yangyi Chen, Ming Yan, Fei Huang, Heng Ji
cs.AI

papers.abstract

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) s'est avéré être une stratégie hautement efficace pour doter les grands modèles de langage (LLM) de solides capacités de raisonnement multi-étapes. Cependant, sa conception et ses optimisations restent adaptées à des domaines purement textuels, ce qui entraîne des performances sous-optimales lorsqu'elles sont appliquées à des tâches de raisonnement multimodal. En particulier, nous observons qu'une source majeure d'erreur dans le raisonnement multimodal actuel réside dans la perception des entrées visuelles. Pour remédier à ce goulot d'étranglement, nous proposons l'Optimisation de Politique Consciente de la Perception (PAPO), une extension simple mais efficace de GRPO qui encourage le modèle à apprendre à percevoir tout en apprenant à raisonner, entièrement à partir de signaux de supervision internes. Notamment, PAPO ne repose pas sur une curation de données supplémentaire, des modèles de récompense externes ou des modèles propriétaires. Plus précisément, nous introduisons la Perte de Perception Implicite sous la forme d'un terme de divergence KL dans l'objectif GRPO, ce qui, malgré sa simplicité, apporte des améliorations globales significatives (4,4 %) sur divers benchmarks multimodaux. Les améliorations sont plus marquées, approchant 8,0 %, sur les tâches fortement dépendantes de la vision. Nous observons également une réduction substantielle (30,5 %) des erreurs de perception, indiquant des capacités perceptives améliorées avec PAPO. Nous menons une analyse approfondie de PAPO et identifions un problème unique de piratage de la perte, que nous analysons rigoureusement et atténuons grâce à une Perte d'Entropie Double. Globalement, notre travail introduit une intégration plus profonde de la supervision consciente de la perception dans les objectifs d'apprentissage RLVR et pose les bases d'un nouveau cadre RL qui encourage le raisonnement visuellement ancré. Page du projet : https://mikewangwzhl.github.io/PAPO.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has proven to be a highly effective strategy for endowing Large Language Models (LLMs) with robust multi-step reasoning abilities. However, its design and optimizations remain tailored to purely textual domains, resulting in suboptimal performance when applied to multimodal reasoning tasks. In particular, we observe that a major source of error in current multimodal reasoning lies in the perception of visual inputs. To address this bottleneck, we propose Perception-Aware Policy Optimization (PAPO), a simple yet effective extension of GRPO that encourages the model to learn to perceive while learning to reason, entirely from internal supervision signals. Notably, PAPO does not rely on additional data curation, external reward models, or proprietary models. Specifically, we introduce the Implicit Perception Loss in the form of a KL divergence term to the GRPO objective, which, despite its simplicity, yields significant overall improvements (4.4%) on diverse multimodal benchmarks. The improvements are more pronounced, approaching 8.0%, on tasks with high vision dependency. We also observe a substantial reduction (30.5%) in perception errors, indicating improved perceptual capabilities with PAPO. We conduct comprehensive analysis of PAPO and identify a unique loss hacking issue, which we rigorously analyze and mitigate through a Double Entropy Loss. Overall, our work introduces a deeper integration of perception-aware supervision into RLVR learning objectives and lays the groundwork for a new RL framework that encourages visually grounded reasoning. Project page: https://mikewangwzhl.github.io/PAPO.
PDF401July 10, 2025