Med-PRM : Modèles de raisonnement médical avec récompenses de processus étape par étape vérifiées par des lignes directrices
Med-PRM: Medical Reasoning Models with Stepwise, Guideline-verified Process Rewards
June 13, 2025
Auteurs: Jaehoon Yun, Jiwoong Sohn, Jungwoo Park, Hyunjae Kim, Xiangru Tang, Yanjun Shao, Yonghoe Koo, Minhyeok Ko, Qingyu Chen, Mark Gerstein, Michael Moor, Jaewoo Kang
cs.AI
Résumé
Les grands modèles de langage ont montré des promesses dans la prise de décision clinique, mais les approches actuelles peinent à localiser et corriger les erreurs à des étapes spécifiques du processus de raisonnement. Cette limitation est cruciale en médecine, où l'identification et la correction des erreurs de raisonnement sont essentielles pour un diagnostic précis et des soins efficaces aux patients. Nous présentons Med-PRM, un cadre de modélisation de récompense de processus qui exploite la génération augmentée par recherche pour vérifier chaque étape de raisonnement par rapport à des bases de connaissances médicales établies. En vérifiant les étapes intermédiaires de raisonnement avec des preuves extraites des directives cliniques et de la littérature, notre modèle peut évaluer de manière fine et précise la qualité du raisonnement. Les évaluations sur cinq benchmarks de questions-réponses médicales et deux tâches de diagnostic ouvert démontrent que Med-PRM atteint des performances de pointe, améliorant les performances des modèles de base jusqu'à 13,50 % grâce à Med-PRM. De plus, nous démontrons la généralité de Med-PRM en l'intégrant de manière plug-and-play avec des modèles de politique robustes tels que Meerkat, atteignant pour la première fois une précision de plus de 80 % sur MedQA avec des modèles à petite échelle de 8 milliards de paramètres. Notre code et nos données sont disponibles à l'adresse : https://med-prm.github.io/
English
Large language models have shown promise in clinical decision making, but
current approaches struggle to localize and correct errors at specific steps of
the reasoning process. This limitation is critical in medicine, where
identifying and addressing reasoning errors is essential for accurate diagnosis
and effective patient care. We introduce Med-PRM, a process reward modeling
framework that leverages retrieval-augmented generation to verify each
reasoning step against established medical knowledge bases. By verifying
intermediate reasoning steps with evidence retrieved from clinical guidelines
and literature, our model can precisely assess the reasoning quality in a
fine-grained manner. Evaluations on five medical QA benchmarks and two
open-ended diagnostic tasks demonstrate that Med-PRM achieves state-of-the-art
performance, with improving the performance of base models by up to 13.50%
using Med-PRM. Moreover, we demonstrate the generality of Med-PRM by
integrating it in a plug-and-play fashion with strong policy models such as
Meerkat, achieving over 80\% accuracy on MedQA for the first time using
small-scale models of 8 billion parameters. Our code and data are available at:
https://med-prm.github.io/