Wahrnehmungsbewusste Politikoptimierung für multimodales Denken
Perception-Aware Policy Optimization for Multimodal Reasoning
July 8, 2025
papers.authors: Zhenhailong Wang, Xuehang Guo, Sofia Stoica, Haiyang Xu, Hongru Wang, Hyeonjeong Ha, Xiusi Chen, Yangyi Chen, Ming Yan, Fei Huang, Heng Ji
cs.AI
papers.abstract
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als äußerst effektive Strategie erwiesen, um Large Language Models (LLMs) robuste Fähigkeiten zur mehrstufigen Argumentation zu verleihen. Allerdings sind seine Gestaltung und Optimierungen weiterhin auf rein textbasierte Domänen zugeschnitten, was zu suboptimalen Leistungen bei multimodalen Argumentationsaufgaben führt. Insbesondere beobachten wir, dass eine Hauptfehlerquelle bei der aktuellen multimodalen Argumentation in der Wahrnehmung visueller Eingaben liegt. Um diesen Engpass zu beheben, schlagen wir Perception-Aware Policy Optimization (PAPO) vor, eine einfache, aber effektive Erweiterung von GRPO, die das Modell dazu anregt, während des Lernens der Argumentation auch die Wahrnehmung zu erlernen, und dies ausschließlich aus internen Überwachungssignalen. Bemerkenswerterweise stützt sich PAPO nicht auf zusätzliche Datenkuratierung, externe Belohnungsmodelle oder proprietäre Modelle. Konkret führen wir den Implicit Perception Loss in Form eines KL-Divergenz-Terms in das GRPO-Ziel ein, der trotz seiner Einfachheit signifikante Gesamtverbesserungen (4,4 %) auf diversen multimodalen Benchmarks erzielt. Die Verbesserungen sind ausgeprägter und nähern sich 8,0 % bei Aufgaben mit hoher visueller Abhängigkeit. Wir beobachten außerdem eine erhebliche Reduzierung (30,5 %) der Wahrnehmungsfehler, was auf verbesserte Wahrnehmungsfähigkeiten mit PAPO hinweist. Wir führen eine umfassende Analyse von PAPO durch und identifizieren ein einzigartiges Loss-Hacking-Problem, das wir durch einen Double Entropy Loss rigoros analysieren und mildern. Insgesamt führt unsere Arbeit eine tiefere Integration von wahrnehmungsbewusster Überwachung in RLVR-Lernziele ein und legt den Grundstein für ein neues RL-Framework, das visuell fundierte Argumentation fördert. Projektseite: https://mikewangwzhl.github.io/PAPO.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has proven to be a
highly effective strategy for endowing Large Language Models (LLMs) with robust
multi-step reasoning abilities. However, its design and optimizations remain
tailored to purely textual domains, resulting in suboptimal performance when
applied to multimodal reasoning tasks. In particular, we observe that a major
source of error in current multimodal reasoning lies in the perception of
visual inputs. To address this bottleneck, we propose Perception-Aware Policy
Optimization (PAPO), a simple yet effective extension of GRPO that encourages
the model to learn to perceive while learning to reason, entirely from internal
supervision signals. Notably, PAPO does not rely on additional data curation,
external reward models, or proprietary models. Specifically, we introduce the
Implicit Perception Loss in the form of a KL divergence term to the GRPO
objective, which, despite its simplicity, yields significant overall
improvements (4.4%) on diverse multimodal benchmarks. The improvements are more
pronounced, approaching 8.0%, on tasks with high vision dependency. We also
observe a substantial reduction (30.5%) in perception errors, indicating
improved perceptual capabilities with PAPO. We conduct comprehensive analysis
of PAPO and identify a unique loss hacking issue, which we rigorously analyze
and mitigate through a Double Entropy Loss. Overall, our work introduces a
deeper integration of perception-aware supervision into RLVR learning
objectives and lays the groundwork for a new RL framework that encourages
visually grounded reasoning. Project page: https://mikewangwzhl.github.io/PAPO.