MM-PRM: Verbesserung des multimodalen mathematischen Denkens durch skalierbare schrittweise Überwachung

papers.abstract

Während Multimodale Große Sprachmodelle (MLLMs) beeindruckende Fortschritte im Bereich des visuell-sprachlichen Verständnisses erzielt haben, kämpfen sie immer noch mit komplexer, mehrstufiger Argumentation und produzieren oft logisch inkonsistente oder teilweise korrekte Lösungen. Eine wesentliche Einschränkung liegt im Fehlen fein abgestimmter Überwachung der Zwischenschritte der Argumentation. Um dies zu adressieren, schlagen wir MM-PRM vor, ein Prozess-Belohnungsmodell, das innerhalb eines vollständig automatisierten, skalierbaren Frameworks trainiert wird. Zunächst entwickeln wir MM-Policy, ein leistungsstarkes multimodales Modell, das auf diversen mathematischen Argumentationsdaten trainiert wurde. Anschließend erstellen wir MM-K12, ein kuratiertes Dataset mit 10.000 multimodalen mathematischen Problemen mit überprüfbaren Antworten, das als Ausgangsdaten dient. Mithilfe einer Monte-Carlo-Baumsuche (MCTS)-basierten Pipeline generieren wir über 700.000 schrittweise Anmerkungen ohne menschliche Beschriftung. Das resultierende PRM wird verwendet, um Kandidatenpfade der Argumentation im Best-of-N-Inferenz-Setup zu bewerten und erzielt signifikante Verbesserungen sowohl in domänenspezifischen (MM-K12-Testset) als auch domänenübergreifenden (OlympiadBench, MathVista, etc.) Benchmarks. Weitere Analysen bestätigen die Wirksamkeit von Soft Labels, kleineren Lernraten und Pfaddiversität bei der Optimierung der PRM-Leistung. MM-PRM zeigt, dass Prozessüberwachung ein mächtiges Werkzeug zur Verbesserung der logischen Robustheit multimodaler Argumentationssysteme ist. Wir veröffentlichen alle unsere Codes und Daten unter https://github.com/ModalMinds/MM-PRM.

English

While Multimodal Large Language Models (MLLMs) have achieved impressive progress in vision-language understanding, they still struggle with complex multi-step reasoning, often producing logically inconsistent or partially correct solutions. A key limitation lies in the lack of fine-grained supervision over intermediate reasoning steps. To address this, we propose MM-PRM, a process reward model trained within a fully automated, scalable framework. We first build MM-Policy, a strong multimodal model trained on diverse mathematical reasoning data. Then, we construct MM-K12, a curated dataset of 10,000 multimodal math problems with verifiable answers, which serves as seed data. Leveraging a Monte Carlo Tree Search (MCTS)-based pipeline, we generate over 700k step-level annotations without human labeling. The resulting PRM is used to score candidate reasoning paths in the Best-of-N inference setup and achieves significant improvements across both in-domain (MM-K12 test set) and out-of-domain (OlympiadBench, MathVista, etc.) benchmarks. Further analysis confirms the effectiveness of soft labels, smaller learning rates, and path diversity in optimizing PRM performance. MM-PRM demonstrates that process supervision is a powerful tool for enhancing the logical robustness of multimodal reasoning systems. We release all our codes and data at https://github.com/ModalMinds/MM-PRM.

MM-PRM: Verbesserung des multimodalen mathematischen Denkens durch skalierbare schrittweise Überwachung

MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision

papers.abstract

Support