ChatPaper.aiChatPaper

SRPO: 반영 인식 강화 학습을 통한 멀티모달 LLM 추론 향상

SRPO: Enhancing Multimodal LLM Reasoning via Reflection-Aware Reinforcement Learning

June 2, 2025
저자: Zhongwei Wan, Zhihao Dou, Che Liu, Yu Zhang, Dongfei Cui, Qinjian Zhao, Hui Shen, Jing Xiong, Yi Xin, Yifan Jiang, Yangfan He, Mi Zhang, Shen Yan
cs.AI

초록

멀티모달 대규모 언어 모델(MLLMs)은 추론 작업에서 유망한 능력을 보여주고 있지만, 특히 단일 모달 텍스트 기반 모델과 비교할 때 명시적인 자기 반성과 자기 수정이 필요한 복잡한 문제에서는 여전히 어려움을 겪고 있다. 기존의 반성 방법은 단순하며, 사전 훈련된 모델의 추론 능력과 지식 한계가 초기 훈련 중에 대체로 고정되어 있기 때문에 의미 있고 유익한 피드백을 생성하는 데 어려움을 겪는다. 이러한 문제를 극복하기 위해, 우리는 그룹 상대 정책 최적화(GRPO)를 통한 멀티모달 자기 반성 강화 추론(SRPO)을 제안한다. 이는 멀티모달 LLM 추론을 강화하기 위해 명시적으로 설계된 두 단계의 반성 인식 강화 학습(RL) 프레임워크이다. 첫 번째 단계에서는 고급 MLLM의 지도 하에 반성 중심의 고품질 데이터셋을 구축하여, 초기 응답에 기반한 반성을 생성함으로써 정책 모델이 추론과 자기 반성을 모두 학습할 수 있도록 한다. 두 번째 단계에서는 GRPO 프레임워크 내에서 간결하고 인지적으로 의미 있는 반성을 장려하면서 중복을 피하는 새로운 보상 메커니즘을 도입한다. MathVista, MathVision, MathVerse, MMMU-Pro를 포함한 여러 멀티모달 추론 벤치마크에서 Qwen-2.5-VL-7B와 Qwen-2.5-VL-32B를 사용한 광범위한 실험을 통해 SRPO가 최첨단 모델을 크게 능가하며, 추론 정확도와 반성 품질 모두에서 주목할 만한 개선을 달성함을 입증하였다.
English
Multimodal large language models (MLLMs) have shown promising capabilities in reasoning tasks, yet still struggle with complex problems requiring explicit self-reflection and self-correction, especially compared to their unimodal text-based counterparts. Existing reflection methods are simplistic and struggle to generate meaningful and instructive feedback, as the reasoning ability and knowledge limits of pre-trained models are largely fixed during initial training. To overcome these challenges, we propose Multimodal Self-Reflection enhanced reasoning with Group Relative Policy Optimization (SRPO), a two-stage reflection-aware reinforcement learning (RL) framework explicitly designed to enhance multimodal LLM reasoning. In the first stage, we construct a high-quality, reflection-focused dataset under the guidance of an advanced MLLM, which generates reflections based on initial responses to help the policy model learn both reasoning and self-reflection. In the second stage, we introduce a novel reward mechanism within the GRPO framework that encourages concise and cognitively meaningful reflection while avoiding redundancy. Extensive experiments across multiple multimodal reasoning benchmarks, including MathVista, MathVision, MathVerse, and MMMU-Pro, using Qwen-2.5-VL-7B and Qwen-2.5-VL-32B demonstrate that SRPO significantly outperforms state-of-the-art models, achieving notable improvements in both reasoning accuracy and reflection quality.
PDF472June 3, 2025