Оптимизация стратегий с учетом восприятия для мультимодального рассуждения
Perception-Aware Policy Optimization for Multimodal Reasoning
July 8, 2025
Авторы: Zhenhailong Wang, Xuehang Guo, Sofia Stoica, Haiyang Xu, Hongru Wang, Hyeonjeong Ha, Xiusi Chen, Yangyi Chen, Ming Yan, Fei Huang, Heng Ji
cs.AI
Аннотация
Обучение с подкреплением с верифицируемыми наградами (RLVR) доказало свою высокую эффективность в наделении крупных языковых моделей (LLM) устойчивыми способностями к многошаговому рассуждению. Однако его дизайн и оптимизации остаются ориентированными исключительно на текстовые домены, что приводит к неоптимальной производительности при применении к задачам мультимодального рассуждения. В частности, мы наблюдаем, что основной источник ошибок в текущих мультимодальных рассуждениях заключается в восприятии визуальных входных данных. Для устранения этого узкого места мы предлагаем Perception-Aware Policy Optimization (PAPO) — простое, но эффективное расширение GRPO, которое побуждает модель учиться восприятию одновременно с обучением рассуждению, полностью на основе внутренних сигналов контроля. Примечательно, что PAPO не полагается на дополнительную подготовку данных, внешние модели наград или проприетарные модели. В частности, мы вводим Implicit Perception Loss в виде члена расхождения KL в целевую функцию GRPO, что, несмотря на свою простоту, приводит к значительному общему улучшению (4,4%) на разнообразных мультимодальных тестах. Улучшения более выражены, приближаясь к 8,0%, на задачах с высокой зависимостью от зрения. Мы также наблюдаем существенное сокращение (30,5%) ошибок восприятия, что указывает на улучшенные перцептивные способности с PAPO. Мы проводим всесторонний анализ PAPO и выявляем уникальную проблему "взлома потерь", которую тщательно анализируем и смягчаем с помощью Double Entropy Loss. В целом, наша работа представляет более глубокую интеграцию контроля, учитывающего восприятие, в цели обучения RLVR и закладывает основу для новой структуры RL, которая способствует визуально обоснованному рассуждению. Страница проекта: https://mikewangwzhl.github.io/PAPO.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has proven to be a
highly effective strategy for endowing Large Language Models (LLMs) with robust
multi-step reasoning abilities. However, its design and optimizations remain
tailored to purely textual domains, resulting in suboptimal performance when
applied to multimodal reasoning tasks. In particular, we observe that a major
source of error in current multimodal reasoning lies in the perception of
visual inputs. To address this bottleneck, we propose Perception-Aware Policy
Optimization (PAPO), a simple yet effective extension of GRPO that encourages
the model to learn to perceive while learning to reason, entirely from internal
supervision signals. Notably, PAPO does not rely on additional data curation,
external reward models, or proprietary models. Specifically, we introduce the
Implicit Perception Loss in the form of a KL divergence term to the GRPO
objective, which, despite its simplicity, yields significant overall
improvements (4.4%) on diverse multimodal benchmarks. The improvements are more
pronounced, approaching 8.0%, on tasks with high vision dependency. We also
observe a substantial reduction (30.5%) in perception errors, indicating
improved perceptual capabilities with PAPO. We conduct comprehensive analysis
of PAPO and identify a unique loss hacking issue, which we rigorously analyze
and mitigate through a Double Entropy Loss. Overall, our work introduces a
deeper integration of perception-aware supervision into RLVR learning
objectives and lays the groundwork for a new RL framework that encourages
visually grounded reasoning. Project page: https://mikewangwzhl.github.io/PAPO.