Optimización de Políticas Conscientes de la Percepción para el Razonamiento Multimodal
Perception-Aware Policy Optimization for Multimodal Reasoning
July 8, 2025
Autores: Zhenhailong Wang, Xuehang Guo, Sofia Stoica, Haiyang Xu, Hongru Wang, Hyeonjeong Ha, Xiusi Chen, Yangyi Chen, Ming Yan, Fei Huang, Heng Ji
cs.AI
Resumen
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha demostrado ser una estrategia altamente efectiva para dotar a los Modelos de Lenguaje a Gran Escala (LLMs) de capacidades robustas de razonamiento multi-paso. Sin embargo, su diseño y optimizaciones siguen estando adaptados a dominios puramente textuales, lo que resulta en un rendimiento subóptimo cuando se aplica a tareas de razonamiento multimodal. En particular, observamos que una fuente importante de error en el razonamiento multimodal actual radica en la percepción de entradas visuales. Para abordar este cuello de botella, proponemos la Optimización de Políticas con Conciencia Perceptiva (PAPO), una extensión simple pero efectiva de GRPO que fomenta que el modelo aprenda a percibir mientras aprende a razonar, completamente a partir de señales de supervisión internas. Notablemente, PAPO no depende de la curación adicional de datos, modelos de recompensa externos o modelos propietarios. Específicamente, introducimos la Pérdida de Percepción Implícita en forma de un término de divergencia KL en el objetivo de GRPO, que, a pesar de su simplicidad, produce mejoras generales significativas (4.4%) en diversos puntos de referencia multimodales. Las mejoras son más pronunciadas, acercándose al 8.0%, en tareas con alta dependencia visual. También observamos una reducción sustancial (30.5%) en los errores de percepción, lo que indica capacidades perceptivas mejoradas con PAPO. Realizamos un análisis exhaustivo de PAPO e identificamos un problema único de manipulación de pérdidas, que analizamos rigurosamente y mitigamos mediante una Pérdida de Doble Entropía. En general, nuestro trabajo introduce una integración más profunda de la supervisión con conciencia perceptiva en los objetivos de aprendizaje de RLVR y sienta las bases para un nuevo marco de RL que fomenta el razonamiento visualmente fundamentado. Página del proyecto: https://mikewangwzhl.github.io/PAPO.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has proven to be a
highly effective strategy for endowing Large Language Models (LLMs) with robust
multi-step reasoning abilities. However, its design and optimizations remain
tailored to purely textual domains, resulting in suboptimal performance when
applied to multimodal reasoning tasks. In particular, we observe that a major
source of error in current multimodal reasoning lies in the perception of
visual inputs. To address this bottleneck, we propose Perception-Aware Policy
Optimization (PAPO), a simple yet effective extension of GRPO that encourages
the model to learn to perceive while learning to reason, entirely from internal
supervision signals. Notably, PAPO does not rely on additional data curation,
external reward models, or proprietary models. Specifically, we introduce the
Implicit Perception Loss in the form of a KL divergence term to the GRPO
objective, which, despite its simplicity, yields significant overall
improvements (4.4%) on diverse multimodal benchmarks. The improvements are more
pronounced, approaching 8.0%, on tasks with high vision dependency. We also
observe a substantial reduction (30.5%) in perception errors, indicating
improved perceptual capabilities with PAPO. We conduct comprehensive analysis
of PAPO and identify a unique loss hacking issue, which we rigorously analyze
and mitigate through a Double Entropy Loss. Overall, our work introduces a
deeper integration of perception-aware supervision into RLVR learning
objectives and lays the groundwork for a new RL framework that encourages
visually grounded reasoning. Project page: https://mikewangwzhl.github.io/PAPO.