ChatPaper.aiChatPaper

Ottimizzazione delle Politiche con Consapevolezza Percettiva per il Ragionamento Multimodale

Perception-Aware Policy Optimization for Multimodal Reasoning

July 8, 2025
Autori: Zhenhailong Wang, Xuehang Guo, Sofia Stoica, Haiyang Xu, Hongru Wang, Hyeonjeong Ha, Xiusi Chen, Yangyi Chen, Ming Yan, Fei Huang, Heng Ji
cs.AI

Abstract

Il Reinforcement Learning con Ricompense Verificabili (RLVR) si è dimostrato una strategia altamente efficace per dotare i Modelli Linguistici di Grande Scala (LLMs) di robuste capacità di ragionamento multi-step. Tuttavia, il suo design e le sue ottimizzazioni rimangono adattati a domini puramente testuali, risultando in prestazioni subottimali quando applicati a compiti di ragionamento multimodale. In particolare, osserviamo che una delle principali fonti di errore nel ragionamento multimodale attuale risiede nella percezione degli input visivi. Per affrontare questo collo di bottiglia, proponiamo la Perception-Aware Policy Optimization (PAPO), un'estensione semplice ma efficace di GRPO che incoraggia il modello a imparare a percepire mentre impara a ragionare, interamente da segnali di supervisione interni. È importante notare che PAPO non si affida a ulteriori operazioni di curatela dei dati, modelli di ricompensa esterni o modelli proprietari. Nello specifico, introduciamo la Perdita di Percezione Implicita sotto forma di un termine di divergenza KL nell'obiettivo GRPO, che, nonostante la sua semplicità, produce miglioramenti complessivi significativi (4.4%) su benchmark multimodali diversificati. I miglioramenti sono più pronunciati, avvicinandosi all'8.0%, su compiti con alta dipendenza visiva. Osserviamo anche una sostanziale riduzione (30.5%) degli errori di percezione, indicando capacità percettive migliorate con PAPO. Conduciamo un'analisi completa di PAPO e identifichiamo un problema unico di "loss hacking", che analizziamo rigorosamente e mitigiamo attraverso una Double Entropy Loss. Nel complesso, il nostro lavoro introduce un'integrazione più profonda della supervisione consapevole della percezione negli obiettivi di apprendimento RLVR e getta le basi per un nuovo framework RL che incoraggia il ragionamento basato su elementi visivi. Pagina del progetto: https://mikewangwzhl.github.io/PAPO.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has proven to be a highly effective strategy for endowing Large Language Models (LLMs) with robust multi-step reasoning abilities. However, its design and optimizations remain tailored to purely textual domains, resulting in suboptimal performance when applied to multimodal reasoning tasks. In particular, we observe that a major source of error in current multimodal reasoning lies in the perception of visual inputs. To address this bottleneck, we propose Perception-Aware Policy Optimization (PAPO), a simple yet effective extension of GRPO that encourages the model to learn to perceive while learning to reason, entirely from internal supervision signals. Notably, PAPO does not rely on additional data curation, external reward models, or proprietary models. Specifically, we introduce the Implicit Perception Loss in the form of a KL divergence term to the GRPO objective, which, despite its simplicity, yields significant overall improvements (4.4%) on diverse multimodal benchmarks. The improvements are more pronounced, approaching 8.0%, on tasks with high vision dependency. We also observe a substantial reduction (30.5%) in perception errors, indicating improved perceptual capabilities with PAPO. We conduct comprehensive analysis of PAPO and identify a unique loss hacking issue, which we rigorously analyze and mitigate through a Double Entropy Loss. Overall, our work introduces a deeper integration of perception-aware supervision into RLVR learning objectives and lays the groundwork for a new RL framework that encourages visually grounded reasoning. Project page: https://mikewangwzhl.github.io/PAPO.
PDF441July 10, 2025