MM-PRM: Verbesserung des multimodalen mathematischen Denkens durch skalierbare schrittweise Überwachung
MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision
May 19, 2025
Autoren: Lingxiao Du, Fanqing Meng, Zongkai Liu, Zhixiang Zhou, Ping Luo, Qiaosheng Zhang, Wenqi Shao
cs.AI
Zusammenfassung
Während Multimodale Große Sprachmodelle (MLLMs) beeindruckende Fortschritte im Bereich des visuell-sprachlichen Verständnisses erzielt haben, kämpfen sie immer noch mit komplexer, mehrstufiger Argumentation und produzieren oft logisch inkonsistente oder teilweise korrekte Lösungen. Eine wesentliche Einschränkung liegt im Fehlen fein abgestimmter Überwachung der Zwischenschritte der Argumentation. Um dies zu adressieren, schlagen wir MM-PRM vor, ein Prozess-Belohnungsmodell, das innerhalb eines vollständig automatisierten, skalierbaren Frameworks trainiert wird. Zunächst entwickeln wir MM-Policy, ein leistungsstarkes multimodales Modell, das auf diversen mathematischen Argumentationsdaten trainiert wurde. Anschließend erstellen wir MM-K12, ein kuratiertes Dataset mit 10.000 multimodalen mathematischen Problemen mit überprüfbaren Antworten, das als Ausgangsdaten dient. Mithilfe einer Monte-Carlo-Baumsuche (MCTS)-basierten Pipeline generieren wir über 700.000 schrittweise Anmerkungen ohne menschliche Beschriftung. Das resultierende PRM wird verwendet, um Kandidatenpfade der Argumentation im Best-of-N-Inferenz-Setup zu bewerten und erzielt signifikante Verbesserungen sowohl in domänenspezifischen (MM-K12-Testset) als auch domänenübergreifenden (OlympiadBench, MathVista, etc.) Benchmarks. Weitere Analysen bestätigen die Wirksamkeit von Soft Labels, kleineren Lernraten und Pfaddiversität bei der Optimierung der PRM-Leistung. MM-PRM zeigt, dass Prozessüberwachung ein mächtiges Werkzeug zur Verbesserung der logischen Robustheit multimodaler Argumentationssysteme ist. Wir veröffentlichen alle unsere Codes und Daten unter https://github.com/ModalMinds/MM-PRM.
English
While Multimodal Large Language Models (MLLMs) have achieved impressive
progress in vision-language understanding, they still struggle with complex
multi-step reasoning, often producing logically inconsistent or partially
correct solutions. A key limitation lies in the lack of fine-grained
supervision over intermediate reasoning steps. To address this, we propose
MM-PRM, a process reward model trained within a fully automated, scalable
framework. We first build MM-Policy, a strong multimodal model trained on
diverse mathematical reasoning data. Then, we construct MM-K12, a curated
dataset of 10,000 multimodal math problems with verifiable answers, which
serves as seed data. Leveraging a Monte Carlo Tree Search (MCTS)-based
pipeline, we generate over 700k step-level annotations without human labeling.
The resulting PRM is used to score candidate reasoning paths in the Best-of-N
inference setup and achieves significant improvements across both in-domain
(MM-K12 test set) and out-of-domain (OlympiadBench, MathVista, etc.)
benchmarks. Further analysis confirms the effectiveness of soft labels, smaller
learning rates, and path diversity in optimizing PRM performance. MM-PRM
demonstrates that process supervision is a powerful tool for enhancing the
logical robustness of multimodal reasoning systems. We release all our codes
and data at https://github.com/ModalMinds/MM-PRM.Summary
AI-Generated Summary