Med-PRM: Medische Redeneermodellen met Stapsgewijze, Richtlijn-geverifieerde Procesbeloningen
Med-PRM: Medical Reasoning Models with Stepwise, Guideline-verified Process Rewards
June 13, 2025
Auteurs: Jaehoon Yun, Jiwoong Sohn, Jungwoo Park, Hyunjae Kim, Xiangru Tang, Yanjun Shao, Yonghoe Koo, Minhyeok Ko, Qingyu Chen, Mark Gerstein, Michael Moor, Jaewoo Kang
cs.AI
Samenvatting
Grote taalmodellen hebben potentie getoond in klinische besluitvorming, maar huidige benaderingen hebben moeite om fouten te lokaliseren en te corrigeren op specifieke stappen van het redeneerproces. Deze beperking is cruciaal in de geneeskunde, waar het identificeren en aanpakken van redeneerfouten essentieel is voor een accurate diagnose en effectieve patiëntenzorg. We introduceren Med-PRM, een raamwerk voor procesbeloningsmodellering dat gebruikmaakt van retrieval-augmented generation om elke redeneerstap te verifiëren aan de hand van gevestigde medische kennisbanken. Door tussenliggende redeneerstappen te verifiëren met bewijs uit klinische richtlijnen en literatuur, kan ons model de redeneerkwaliteit op een fijnmazige manier precies beoordelen. Evaluaties op vijf medische QA-benchmarks en twee open diagnostische taken tonen aan dat Med-PRM state-of-the-art prestaties bereikt, met een verbetering van de prestaties van basismodellen tot wel 13,50% door gebruik van Med-PRM. Bovendien tonen we de algemeenheid van Med-PRM aan door het op een plug-and-play manier te integreren met sterke beleidsmodellen zoals Meerkat, waarbij voor het eerst een nauwkeurigheid van meer dan 80% op MedQA wordt bereikt met kleinschalige modellen van 8 miljard parameters. Onze code en gegevens zijn beschikbaar op: https://med-prm.github.io/
English
Large language models have shown promise in clinical decision making, but
current approaches struggle to localize and correct errors at specific steps of
the reasoning process. This limitation is critical in medicine, where
identifying and addressing reasoning errors is essential for accurate diagnosis
and effective patient care. We introduce Med-PRM, a process reward modeling
framework that leverages retrieval-augmented generation to verify each
reasoning step against established medical knowledge bases. By verifying
intermediate reasoning steps with evidence retrieved from clinical guidelines
and literature, our model can precisely assess the reasoning quality in a
fine-grained manner. Evaluations on five medical QA benchmarks and two
open-ended diagnostic tasks demonstrate that Med-PRM achieves state-of-the-art
performance, with improving the performance of base models by up to 13.50%
using Med-PRM. Moreover, we demonstrate the generality of Med-PRM by
integrating it in a plug-and-play fashion with strong policy models such as
Meerkat, achieving over 80\% accuracy on MedQA for the first time using
small-scale models of 8 billion parameters. Our code and data are available at:
https://med-prm.github.io/