ChatPaper.aiChatPaper

Perceptiebewust Beleidsoptimalisatie voor Multimodaal Redeneren

Perception-Aware Policy Optimization for Multimodal Reasoning

July 8, 2025
Auteurs: Zhenhailong Wang, Xuehang Guo, Sofia Stoica, Haiyang Xu, Hongru Wang, Hyeonjeong Ha, Xiusi Chen, Yangyi Chen, Ming Yan, Fei Huang, Heng Ji
cs.AI

Samenvatting

Reinforcement Learning met Verifieerbare Beloningen (RLVR) heeft zich bewezen als een zeer effectieve strategie om Large Language Models (LLMs) te voorzien van robuuste meerstaps redeneervaardigheden. Het ontwerp en de optimalisaties blijven echter afgestemd op puur tekstuele domeinen, wat resulteert in suboptimale prestaties bij multimodale redeneertaken. In het bijzonder merken we op dat een belangrijke bron van fouten in huidige multimodale redeneringen ligt in de perceptie van visuele invoer. Om dit knelpunt aan te pakken, stellen we Perception-Aware Policy Optimization (PAPO) voor, een eenvoudige maar effectieve uitbreiding van GRPO die het model aanmoedigt om te leren waarnemen terwijl het leert redeneren, volledig vanuit interne begeleidingssignalen. Opmerkelijk is dat PAPO niet afhankelijk is van aanvullende datacuratie, externe beloningsmodellen of propriëtaire modellen. Specifiek introduceren we het Impliciete Perceptieverlies in de vorm van een KL-divergentieterm aan het GRPO-doel, wat ondanks zijn eenvoud aanzienlijke algemene verbeteringen (4,4%) oplevert op diverse multimodale benchmarks. De verbeteringen zijn meer uitgesproken, oplopend tot 8,0%, bij taken met een hoge visuele afhankelijkheid. We observeren ook een aanzienlijke vermindering (30,5%) in perceptiefouten, wat wijst op verbeterde perceptuele capaciteiten met PAPO. We voeren een uitgebreide analyse uit van PAPO en identificeren een uniek 'loss hacking'-probleem, dat we grondig analyseren en mitigeren via een Double Entropy Loss. Over het geheel genomen introduceert ons werk een diepere integratie van perceptiebewuste begeleiding in RLVR-leerdoelen en legt het de basis voor een nieuw RL-framework dat visueel onderbouwde redenering aanmoedigt. Projectpagina: https://mikewangwzhl.github.io/PAPO.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has proven to be a highly effective strategy for endowing Large Language Models (LLMs) with robust multi-step reasoning abilities. However, its design and optimizations remain tailored to purely textual domains, resulting in suboptimal performance when applied to multimodal reasoning tasks. In particular, we observe that a major source of error in current multimodal reasoning lies in the perception of visual inputs. To address this bottleneck, we propose Perception-Aware Policy Optimization (PAPO), a simple yet effective extension of GRPO that encourages the model to learn to perceive while learning to reason, entirely from internal supervision signals. Notably, PAPO does not rely on additional data curation, external reward models, or proprietary models. Specifically, we introduce the Implicit Perception Loss in the form of a KL divergence term to the GRPO objective, which, despite its simplicity, yields significant overall improvements (4.4%) on diverse multimodal benchmarks. The improvements are more pronounced, approaching 8.0%, on tasks with high vision dependency. We also observe a substantial reduction (30.5%) in perception errors, indicating improved perceptual capabilities with PAPO. We conduct comprehensive analysis of PAPO and identify a unique loss hacking issue, which we rigorously analyze and mitigate through a Double Entropy Loss. Overall, our work introduces a deeper integration of perception-aware supervision into RLVR learning objectives and lays the groundwork for a new RL framework that encourages visually grounded reasoning. Project page: https://mikewangwzhl.github.io/PAPO.
PDF471July 10, 2025