MM-PRM: 확장 가능한 단계별 지도를 통한 다중모달 수학적 추론 향상
MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision
May 19, 2025
저자: Lingxiao Du, Fanqing Meng, Zongkai Liu, Zhixiang Zhou, Ping Luo, Qiaosheng Zhang, Wenqi Shao
cs.AI
초록
멀티모달 대형 언어 모델(MLLM)은 비전-언어 이해 분야에서 인상적인 진전을 이루었지만, 여전히 복잡한 다단계 추론에는 어려움을 겪으며, 종종 논리적으로 일관되지 않거나 부분적으로만 정확한 해결책을 제시합니다. 이러한 한계의 핵심은 중간 추론 단계에 대한 세밀한 감독이 부족하다는 점에 있습니다. 이를 해결하기 위해, 우리는 완전히 자동화되고 확장 가능한 프레임워크 내에서 훈련된 프로세스 보상 모델인 MM-PRM을 제안합니다. 먼저, 다양한 수학적 추론 데이터로 훈련된 강력한 멀티모달 모델인 MM-Policy를 구축합니다. 그런 다음, 검증 가능한 답을 포함한 10,000개의 멀티모달 수학 문제로 구성된 MM-K12 데이터셋을 구축하여 시드 데이터로 활용합니다. 몬테카를로 트리 탐색(MCTS) 기반 파이프라인을 통해, 인간의 라벨링 없이 700,000개 이상의 단계별 주석을 생성합니다. 결과적으로 얻은 PRM은 Best-of-N 추론 설정에서 후보 추론 경로를 점수화하는 데 사용되며, 도메인 내(MM-K12 테스트 세트) 및 도메인 외(OlympiadBench, MathVista 등) 벤치마크에서 모두 상당한 개선을 달성합니다. 추가 분석은 소프트 라벨, 더 작은 학습률, 그리고 경로 다양성이 PRM 성능 최적화에 효과적임을 확인합니다. MM-PRM은 프로세스 감독이 멀티모달 추론 시스템의 논리적 견고성을 강화하는 강력한 도구임을 입증합니다. 우리는 모든 코드와 데이터를 https://github.com/ModalMinds/MM-PRM에서 공개합니다.
English
While Multimodal Large Language Models (MLLMs) have achieved impressive
progress in vision-language understanding, they still struggle with complex
multi-step reasoning, often producing logically inconsistent or partially
correct solutions. A key limitation lies in the lack of fine-grained
supervision over intermediate reasoning steps. To address this, we propose
MM-PRM, a process reward model trained within a fully automated, scalable
framework. We first build MM-Policy, a strong multimodal model trained on
diverse mathematical reasoning data. Then, we construct MM-K12, a curated
dataset of 10,000 multimodal math problems with verifiable answers, which
serves as seed data. Leveraging a Monte Carlo Tree Search (MCTS)-based
pipeline, we generate over 700k step-level annotations without human labeling.
The resulting PRM is used to score candidate reasoning paths in the Best-of-N
inference setup and achieves significant improvements across both in-domain
(MM-K12 test set) and out-of-domain (OlympiadBench, MathVista, etc.)
benchmarks. Further analysis confirms the effectiveness of soft labels, smaller
learning rates, and path diversity in optimizing PRM performance. MM-PRM
demonstrates that process supervision is a powerful tool for enhancing the
logical robustness of multimodal reasoning systems. We release all our codes
and data at https://github.com/ModalMinds/MM-PRM.Summary
AI-Generated Summary