SRPO: Улучшение мультимодального рассуждения в больших языковых моделях с использованием рефлексивно-осознанного обучения с подкреплением

Аннотация

Мультимодальные крупные языковые модели (MLLMs) демонстрируют перспективные способности в задачах рассуждения, однако всё ещё испытывают трудности с решением сложных проблем, требующих явного самоанализа и самокоррекции, особенно в сравнении с их унимодальными текстовыми аналогами. Существующие методы рефлексии являются упрощёнными и не способны генерировать содержательную и полезную обратную связь, поскольку способности к рассуждению и объём знаний предварительно обученных моделей в значительной степени фиксируются на этапе начального обучения. Для преодоления этих ограничений мы предлагаем метод Multimodal Self-Reflection enhanced reasoning with Group Relative Policy Optimization (SRPO) — двухэтапную структуру обучения с подкреплением (RL), ориентированную на рефлексию и специально разработанную для улучшения способностей мультимодальных языковых моделей к рассуждению. На первом этапе мы создаём высококачественный набор данных, сфокусированный на рефлексии, под руководством продвинутой MLLM, которая генерирует анализ на основе первоначальных ответов, чтобы помочь модели политики обучаться как рассуждению, так и самоанализу. На втором этапе мы вводим новый механизм вознаграждения в рамках структуры GRPO, который поощряет лаконичную и когнитивно значимую рефлексию, избегая избыточности. Многочисленные эксперименты на нескольких мультимодальных бенчмарках для рассуждений, включая MathVista, MathVision, MathVerse и MMMU-Pro, с использованием моделей Qwen-2.5-VL-7B и Qwen-2.5-VL-32B, демонстрируют, что SRPO значительно превосходит современные модели, достигая заметного улучшения как в точности рассуждений, так и в качестве рефлексии.

English

Multimodal large language models (MLLMs) have shown promising capabilities in reasoning tasks, yet still struggle with complex problems requiring explicit self-reflection and self-correction, especially compared to their unimodal text-based counterparts. Existing reflection methods are simplistic and struggle to generate meaningful and instructive feedback, as the reasoning ability and knowledge limits of pre-trained models are largely fixed during initial training. To overcome these challenges, we propose Multimodal Self-Reflection enhanced reasoning with Group Relative Policy Optimization (SRPO), a two-stage reflection-aware reinforcement learning (RL) framework explicitly designed to enhance multimodal LLM reasoning. In the first stage, we construct a high-quality, reflection-focused dataset under the guidance of an advanced MLLM, which generates reflections based on initial responses to help the policy model learn both reasoning and self-reflection. In the second stage, we introduce a novel reward mechanism within the GRPO framework that encourages concise and cognitively meaningful reflection while avoiding redundancy. Extensive experiments across multiple multimodal reasoning benchmarks, including MathVista, MathVision, MathVerse, and MMMU-Pro, using Qwen-2.5-VL-7B and Qwen-2.5-VL-32B demonstrate that SRPO significantly outperforms state-of-the-art models, achieving notable improvements in both reasoning accuracy and reflection quality.

SRPO: Улучшение мультимодального рассуждения в больших языковых моделях с использованием рефлексивно-осознанного обучения с подкреплением

SRPO: Enhancing Multimodal LLM Reasoning via Reflection-Aware Reinforcement Learning

Аннотация

Support