Верный GRPO: Улучшение визуально-пространственного мышления в мультимодальных языковых моделях с помощью ограниченной оптимизации политик

Аннотация

Мультимодальные модели рассуждений (ММР), обученные с подкреплением с верифицируемыми вознаграждениями (RLVR), демонстрируют повышенную точность на бенчмарках визуальных рассуждений. Однако мы наблюдаем, что рост точности часто достигается ценой качества рассуждений: генерируемые цепочки мыслей (CoT) часто не согласуются с окончательным ответом и слабо обоснованы визуальными данными. Мы систематически изучаем это явление на семи сложных бенчмарках пространственных рассуждений из реального мира и обнаруживаем, что оно затрагивает современные ММР, такие как ViGoRL-Spatial, TreeVGR, а также наши собственные модели, обученные с помощью стандартной групповой относительной оптимизации политики (GRPO). Мы характеризуем качество CoT-рассуждений по двум взаимодополняющим осям: «логическая согласованность» (следует ли из CoT окончательный ответ?) и «визуальная обоснованность» (точно ли каждый шаг рассуждения описывает объекты, атрибуты и пространственные отношения на изображении?). Для решения этой проблемы мы предлагаем Достоверную GRPO (FGRPO) — вариант GRPO, который обеспечивает соблюдение ограничений на согласованность и обоснованность с помощью лагранжевого дуального восхождения. FGRPO включает пакетные ограничения согласованности и обоснованности в расчет преимуществ внутри группы, адаптивно регулируя относительную важность ограничений в процессе оптимизации. Мы оцениваем FGRPO на базовых моделях Qwen2.5-VL-7B и 3B на семи пространственных наборах данных. Наши результаты показывают, что FGRPO существенно улучшает качество рассуждений, снижая уровень несогласованности с 24,5% до 1,7% и повышая показатели визуальной обоснованности на +13%. Это также улучшает точность окончательного ответа по сравнению с простой GRPO, демонстрируя, что достоверные рассуждения позволяют получать лучшие ответы.

English

Multimodal reasoning models (MRMs) trained with reinforcement learning with verifiable rewards (RLVR) show improved accuracy on visual reasoning benchmarks. However, we observe that accuracy gains often come at the cost of reasoning quality: generated Chain-of-Thought (CoT) traces are frequently inconsistent with the final answer and poorly grounded in the visual evidence. We systematically study this phenomenon across seven challenging real-world spatial reasoning benchmarks and find that it affects contemporary MRMs such as ViGoRL-Spatial, TreeVGR as well as our own models trained with standard Group Relative Policy Optimization (GRPO). We characterize CoT reasoning quality along two complementary axes: "logical consistency" (does the CoT entail the final answer?) and "visual grounding" (does each reasoning step accurately describe objects, attributes, and spatial relationships in the image?). To address this, we propose Faithful GRPO (FGRPO), a variant of GRPO that enforces consistency and grounding as constraints via Lagrangian dual ascent. FGRPO incorporates batch-level consistency and grounding constraints into the advantage computation within a group, adaptively adjusting the relative importance of constraints during optimization. We evaluate FGRPO on Qwen2.5-VL-7B and 3B backbones across seven spatial datasets. Our results show that FGRPO substantially improves reasoning quality, reducing the inconsistency rate from 24.5% to 1.7% and improving visual grounding scores by +13%. It also improves final answer accuracy over simple GRPO, demonstrating that faithful reasoning enables better answers.

Верный GRPO: Улучшение визуально-пространственного мышления в мультимодальных языковых моделях с помощью ограниченной оптимизации политик

Faithful GRPO: Improving Visual Spatial Reasoning in Multimodal Language Models via Constrained Policy Optimization

Аннотация

Support