Ottimizzazione delle Politiche con Consapevolezza Percettiva per il Ragionamento Multimodale
Perception-Aware Policy Optimization for Multimodal Reasoning
July 8, 2025
Autori: Zhenhailong Wang, Xuehang Guo, Sofia Stoica, Haiyang Xu, Hongru Wang, Hyeonjeong Ha, Xiusi Chen, Yangyi Chen, Ming Yan, Fei Huang, Heng Ji
cs.AI
Abstract
Il Reinforcement Learning con Ricompense Verificabili (RLVR) si è dimostrato una strategia altamente efficace per dotare i Modelli Linguistici di Grande Scala (LLMs) di robuste capacità di ragionamento multi-step. Tuttavia, il suo design e le sue ottimizzazioni rimangono adattati a domini puramente testuali, risultando in prestazioni subottimali quando applicati a compiti di ragionamento multimodale. In particolare, osserviamo che una delle principali fonti di errore nel ragionamento multimodale attuale risiede nella percezione degli input visivi. Per affrontare questo collo di bottiglia, proponiamo la Perception-Aware Policy Optimization (PAPO), un'estensione semplice ma efficace di GRPO che incoraggia il modello a imparare a percepire mentre impara a ragionare, interamente da segnali di supervisione interni. È importante notare che PAPO non si affida a ulteriori operazioni di curatela dei dati, modelli di ricompensa esterni o modelli proprietari. Nello specifico, introduciamo la Perdita di Percezione Implicita sotto forma di un termine di divergenza KL nell'obiettivo GRPO, che, nonostante la sua semplicità, produce miglioramenti complessivi significativi (4.4%) su benchmark multimodali diversificati. I miglioramenti sono più pronunciati, avvicinandosi all'8.0%, su compiti con alta dipendenza visiva. Osserviamo anche una sostanziale riduzione (30.5%) degli errori di percezione, indicando capacità percettive migliorate con PAPO. Conduciamo un'analisi completa di PAPO e identifichiamo un problema unico di "loss hacking", che analizziamo rigorosamente e mitigiamo attraverso una Double Entropy Loss. Nel complesso, il nostro lavoro introduce un'integrazione più profonda della supervisione consapevole della percezione negli obiettivi di apprendimento RLVR e getta le basi per un nuovo framework RL che incoraggia il ragionamento basato su elementi visivi. Pagina del progetto: https://mikewangwzhl.github.io/PAPO.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has proven to be a
highly effective strategy for endowing Large Language Models (LLMs) with robust
multi-step reasoning abilities. However, its design and optimizations remain
tailored to purely textual domains, resulting in suboptimal performance when
applied to multimodal reasoning tasks. In particular, we observe that a major
source of error in current multimodal reasoning lies in the perception of
visual inputs. To address this bottleneck, we propose Perception-Aware Policy
Optimization (PAPO), a simple yet effective extension of GRPO that encourages
the model to learn to perceive while learning to reason, entirely from internal
supervision signals. Notably, PAPO does not rely on additional data curation,
external reward models, or proprietary models. Specifically, we introduce the
Implicit Perception Loss in the form of a KL divergence term to the GRPO
objective, which, despite its simplicity, yields significant overall
improvements (4.4%) on diverse multimodal benchmarks. The improvements are more
pronounced, approaching 8.0%, on tasks with high vision dependency. We also
observe a substantial reduction (30.5%) in perception errors, indicating
improved perceptual capabilities with PAPO. We conduct comprehensive analysis
of PAPO and identify a unique loss hacking issue, which we rigorously analyze
and mitigate through a Double Entropy Loss. Overall, our work introduces a
deeper integration of perception-aware supervision into RLVR learning
objectives and lays the groundwork for a new RL framework that encourages
visually grounded reasoning. Project page: https://mikewangwzhl.github.io/PAPO.