Perceptiebewust Beleidsoptimalisatie voor Multimodaal Redeneren
Perception-Aware Policy Optimization for Multimodal Reasoning
July 8, 2025
Auteurs: Zhenhailong Wang, Xuehang Guo, Sofia Stoica, Haiyang Xu, Hongru Wang, Hyeonjeong Ha, Xiusi Chen, Yangyi Chen, Ming Yan, Fei Huang, Heng Ji
cs.AI
Samenvatting
Reinforcement Learning met Verifieerbare Beloningen (RLVR) heeft zich bewezen als een zeer effectieve strategie om Large Language Models (LLMs) te voorzien van robuuste meerstaps redeneervaardigheden. Het ontwerp en de optimalisaties blijven echter afgestemd op puur tekstuele domeinen, wat resulteert in suboptimale prestaties bij multimodale redeneertaken. In het bijzonder merken we op dat een belangrijke bron van fouten in huidige multimodale redeneringen ligt in de perceptie van visuele invoer. Om dit knelpunt aan te pakken, stellen we Perception-Aware Policy Optimization (PAPO) voor, een eenvoudige maar effectieve uitbreiding van GRPO die het model aanmoedigt om te leren waarnemen terwijl het leert redeneren, volledig vanuit interne begeleidingssignalen. Opmerkelijk is dat PAPO niet afhankelijk is van aanvullende datacuratie, externe beloningsmodellen of propriëtaire modellen. Specifiek introduceren we het Impliciete Perceptieverlies in de vorm van een KL-divergentieterm aan het GRPO-doel, wat ondanks zijn eenvoud aanzienlijke algemene verbeteringen (4,4%) oplevert op diverse multimodale benchmarks. De verbeteringen zijn meer uitgesproken, oplopend tot 8,0%, bij taken met een hoge visuele afhankelijkheid. We observeren ook een aanzienlijke vermindering (30,5%) in perceptiefouten, wat wijst op verbeterde perceptuele capaciteiten met PAPO. We voeren een uitgebreide analyse uit van PAPO en identificeren een uniek 'loss hacking'-probleem, dat we grondig analyseren en mitigeren via een Double Entropy Loss. Over het geheel genomen introduceert ons werk een diepere integratie van perceptiebewuste begeleiding in RLVR-leerdoelen en legt het de basis voor een nieuw RL-framework dat visueel onderbouwde redenering aanmoedigt. Projectpagina: https://mikewangwzhl.github.io/PAPO.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has proven to be a
highly effective strategy for endowing Large Language Models (LLMs) with robust
multi-step reasoning abilities. However, its design and optimizations remain
tailored to purely textual domains, resulting in suboptimal performance when
applied to multimodal reasoning tasks. In particular, we observe that a major
source of error in current multimodal reasoning lies in the perception of
visual inputs. To address this bottleneck, we propose Perception-Aware Policy
Optimization (PAPO), a simple yet effective extension of GRPO that encourages
the model to learn to perceive while learning to reason, entirely from internal
supervision signals. Notably, PAPO does not rely on additional data curation,
external reward models, or proprietary models. Specifically, we introduce the
Implicit Perception Loss in the form of a KL divergence term to the GRPO
objective, which, despite its simplicity, yields significant overall
improvements (4.4%) on diverse multimodal benchmarks. The improvements are more
pronounced, approaching 8.0%, on tasks with high vision dependency. We also
observe a substantial reduction (30.5%) in perception errors, indicating
improved perceptual capabilities with PAPO. We conduct comprehensive analysis
of PAPO and identify a unique loss hacking issue, which we rigorously analyze
and mitigate through a Double Entropy Loss. Overall, our work introduces a
deeper integration of perception-aware supervision into RLVR learning
objectives and lays the groundwork for a new RL framework that encourages
visually grounded reasoning. Project page: https://mikewangwzhl.github.io/PAPO.