ChatPaper.aiChatPaper

Otimização de Políticas Conscientes da Percepção para Raciocínio Multimodal

Perception-Aware Policy Optimization for Multimodal Reasoning

July 8, 2025
Autores: Zhenhailong Wang, Xuehang Guo, Sofia Stoica, Haiyang Xu, Hongru Wang, Hyeonjeong Ha, Xiusi Chen, Yangyi Chen, Ming Yan, Fei Huang, Heng Ji
cs.AI

Resumo

O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) provou ser uma estratégia altamente eficaz para dotar Modelos de Linguagem de Grande Escala (LLMs) de habilidades robustas de raciocínio em múltiplos passos. No entanto, seu design e otimizações permanecem adaptados a domínios puramente textuais, resultando em desempenho subótimo quando aplicados a tarefas de raciocínio multimodal. Em particular, observamos que uma das principais fontes de erro no raciocínio multimodal atual reside na percepção de entradas visuais. Para abordar esse gargalo, propomos a Otimização de Polícia com Consciência de Percepção (PAPO), uma extensão simples, mas eficaz, do GRPO que incentiva o modelo a aprender a perceber enquanto aprende a raciocinar, inteiramente a partir de sinais de supervisão internos. Notavelmente, o PAPO não depende de curadoria adicional de dados, modelos de recompensa externos ou modelos proprietários. Especificamente, introduzimos a Perda de Percepção Implícita na forma de um termo de divergência KL ao objetivo do GRPO, que, apesar de sua simplicidade, produz melhorias gerais significativas (4,4%) em diversos benchmarks multimodais. As melhorias são mais pronunciadas, aproximando-se de 8,0%, em tarefas com alta dependência visual. Também observamos uma redução substancial (30,5%) nos erros de percepção, indicando capacidades perceptuais aprimoradas com o PAPO. Realizamos uma análise abrangente do PAPO e identificamos um problema único de manipulação de perda, que analisamos e mitigamos rigorosamente por meio de uma Perda de Entropia Dupla. No geral, nosso trabalho introduz uma integração mais profunda de supervisão com consciência de percepção nos objetivos de aprendizado do RLVR e estabelece as bases para um novo framework de RL que incentiva o raciocínio fundamentado visualmente. Página do projeto: https://mikewangwzhl.github.io/PAPO.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has proven to be a highly effective strategy for endowing Large Language Models (LLMs) with robust multi-step reasoning abilities. However, its design and optimizations remain tailored to purely textual domains, resulting in suboptimal performance when applied to multimodal reasoning tasks. In particular, we observe that a major source of error in current multimodal reasoning lies in the perception of visual inputs. To address this bottleneck, we propose Perception-Aware Policy Optimization (PAPO), a simple yet effective extension of GRPO that encourages the model to learn to perceive while learning to reason, entirely from internal supervision signals. Notably, PAPO does not rely on additional data curation, external reward models, or proprietary models. Specifically, we introduce the Implicit Perception Loss in the form of a KL divergence term to the GRPO objective, which, despite its simplicity, yields significant overall improvements (4.4%) on diverse multimodal benchmarks. The improvements are more pronounced, approaching 8.0%, on tasks with high vision dependency. We also observe a substantial reduction (30.5%) in perception errors, indicating improved perceptual capabilities with PAPO. We conduct comprehensive analysis of PAPO and identify a unique loss hacking issue, which we rigorously analyze and mitigate through a Double Entropy Loss. Overall, our work introduces a deeper integration of perception-aware supervision into RLVR learning objectives and lays the groundwork for a new RL framework that encourages visually grounded reasoning. Project page: https://mikewangwzhl.github.io/PAPO.
PDF421July 10, 2025