Med-PRM: Medizinische Entscheidungsmodelle mit schrittweisen, leitliniengeprüften Prozessbelohnungen
Med-PRM: Medical Reasoning Models with Stepwise, Guideline-verified Process Rewards
June 13, 2025
Autoren: Jaehoon Yun, Jiwoong Sohn, Jungwoo Park, Hyunjae Kim, Xiangru Tang, Yanjun Shao, Yonghoe Koo, Minhyeok Ko, Qingyu Chen, Mark Gerstein, Michael Moor, Jaewoo Kang
cs.AI
Zusammenfassung
Große Sprachmodelle haben Potenzial in der klinischen Entscheidungsfindung gezeigt, doch aktuelle Ansätze haben Schwierigkeiten, Fehler in spezifischen Schritten des Denkprozesses zu lokalisieren und zu korrigieren. Diese Einschränkung ist in der Medizin kritisch, da die Identifizierung und Behebung von Denkfehlern für eine genaue Diagnose und eine effektive Patientenversorgung unerlässlich ist. Wir stellen Med-PRM vor, ein Framework für Prozess-Belohnungsmodellierung, das retrieval-augmentierte Generierung nutzt, um jeden Denkschritt anhand etablierter medizinischer Wissensdatenbanken zu überprüfen. Durch die Verifizierung von Zwischenschritten der Argumentation mit Evidenz, die aus klinischen Leitlinien und der Literatur abgerufen wird, kann unser Modell die Qualität der Argumentation auf feingranulare Weise präzise bewerten. Evaluierungen auf fünf medizinischen QA-Benchmarks und zwei offenen diagnostischen Aufgaben zeigen, dass Med-PRM state-of-the-art Leistungen erzielt und die Leistung von Basismodellen um bis zu 13,50 % verbessert. Darüber hinaus demonstrieren wir die Allgemeingültigkeit von Med-PRM, indem wir es auf Plug-and-Play-Weise mit starken Policy-Modellen wie Meerkat integrieren und erstmals eine Genauigkeit von über 80 % auf MedQA mit kleinen Modellen von 8 Milliarden Parametern erreichen. Unser Code und unsere Daten sind verfügbar unter: https://med-prm.github.io/
English
Large language models have shown promise in clinical decision making, but
current approaches struggle to localize and correct errors at specific steps of
the reasoning process. This limitation is critical in medicine, where
identifying and addressing reasoning errors is essential for accurate diagnosis
and effective patient care. We introduce Med-PRM, a process reward modeling
framework that leverages retrieval-augmented generation to verify each
reasoning step against established medical knowledge bases. By verifying
intermediate reasoning steps with evidence retrieved from clinical guidelines
and literature, our model can precisely assess the reasoning quality in a
fine-grained manner. Evaluations on five medical QA benchmarks and two
open-ended diagnostic tasks demonstrate that Med-PRM achieves state-of-the-art
performance, with improving the performance of base models by up to 13.50%
using Med-PRM. Moreover, we demonstrate the generality of Med-PRM by
integrating it in a plug-and-play fashion with strong policy models such as
Meerkat, achieving over 80\% accuracy on MedQA for the first time using
small-scale models of 8 billion parameters. Our code and data are available at:
https://med-prm.github.io/