Med-PRM: Modelli di Ragionamento Medico con Ricompense Progressive e Verificate dalle Linee Guida
Med-PRM: Medical Reasoning Models with Stepwise, Guideline-verified Process Rewards
June 13, 2025
Autori: Jaehoon Yun, Jiwoong Sohn, Jungwoo Park, Hyunjae Kim, Xiangru Tang, Yanjun Shao, Yonghoe Koo, Minhyeok Ko, Qingyu Chen, Mark Gerstein, Michael Moor, Jaewoo Kang
cs.AI
Abstract
I grandi modelli linguistici hanno dimostrato potenzialità nel supporto alle decisioni cliniche, ma gli approcci attuali faticano a localizzare e correggere gli errori in specifici passaggi del processo di ragionamento. Questa limitazione è cruciale in medicina, dove identificare e affrontare gli errori di ragionamento è essenziale per una diagnosi accurata e un'assistenza efficace al paziente. Introduciamo Med-PRM, un framework di modellazione del processo di ricompensa che sfrutta la generazione aumentata da recupero per verificare ogni passaggio del ragionamento rispetto a basi di conoscenza mediche consolidate. Verificando i passaggi intermedi del ragionamento con evidenze recuperate da linee guida cliniche e letteratura, il nostro modello può valutare in modo preciso e granulare la qualità del ragionamento. Le valutazioni su cinque benchmark di domande e risposte mediche e due compiti diagnostici a risposta aperta dimostrano che Med-PRM raggiunge prestazioni all'avanguardia, migliorando le prestazioni dei modelli base fino al 13,50% con l'uso di Med-PRM. Inoltre, dimostriamo la generalità di Med-PRM integrandolo in modo plug-and-play con modelli di policy avanzati come Meerkat, raggiungendo per la prima volta un'accuratezza superiore all'80% su MedQA utilizzando modelli su piccola scala da 8 miliardi di parametri. Il nostro codice e i dati sono disponibili all'indirizzo: https://med-prm.github.io/
English
Large language models have shown promise in clinical decision making, but
current approaches struggle to localize and correct errors at specific steps of
the reasoning process. This limitation is critical in medicine, where
identifying and addressing reasoning errors is essential for accurate diagnosis
and effective patient care. We introduce Med-PRM, a process reward modeling
framework that leverages retrieval-augmented generation to verify each
reasoning step against established medical knowledge bases. By verifying
intermediate reasoning steps with evidence retrieved from clinical guidelines
and literature, our model can precisely assess the reasoning quality in a
fine-grained manner. Evaluations on five medical QA benchmarks and two
open-ended diagnostic tasks demonstrate that Med-PRM achieves state-of-the-art
performance, with improving the performance of base models by up to 13.50%
using Med-PRM. Moreover, we demonstrate the generality of Med-PRM by
integrating it in a plug-and-play fashion with strong policy models such as
Meerkat, achieving over 80\% accuracy on MedQA for the first time using
small-scale models of 8 billion parameters. Our code and data are available at:
https://med-prm.github.io/