Med-PRM : Modèles de raisonnement médical avec récompenses de processus étape par étape vérifiées par des lignes directrices

papers.abstract

Les grands modèles de langage ont montré des promesses dans la prise de décision clinique, mais les approches actuelles peinent à localiser et corriger les erreurs à des étapes spécifiques du processus de raisonnement. Cette limitation est cruciale en médecine, où l'identification et la correction des erreurs de raisonnement sont essentielles pour un diagnostic précis et des soins efficaces aux patients. Nous présentons Med-PRM, un cadre de modélisation de récompense de processus qui exploite la génération augmentée par recherche pour vérifier chaque étape de raisonnement par rapport à des bases de connaissances médicales établies. En vérifiant les étapes intermédiaires de raisonnement avec des preuves extraites des directives cliniques et de la littérature, notre modèle peut évaluer de manière fine et précise la qualité du raisonnement. Les évaluations sur cinq benchmarks de questions-réponses médicales et deux tâches de diagnostic ouvert démontrent que Med-PRM atteint des performances de pointe, améliorant les performances des modèles de base jusqu'à 13,50 % grâce à Med-PRM. De plus, nous démontrons la généralité de Med-PRM en l'intégrant de manière plug-and-play avec des modèles de politique robustes tels que Meerkat, atteignant pour la première fois une précision de plus de 80 % sur MedQA avec des modèles à petite échelle de 8 milliards de paramètres. Notre code et nos données sont disponibles à l'adresse : https://med-prm.github.io/

English

Large language models have shown promise in clinical decision making, but current approaches struggle to localize and correct errors at specific steps of the reasoning process. This limitation is critical in medicine, where identifying and addressing reasoning errors is essential for accurate diagnosis and effective patient care. We introduce Med-PRM, a process reward modeling framework that leverages retrieval-augmented generation to verify each reasoning step against established medical knowledge bases. By verifying intermediate reasoning steps with evidence retrieved from clinical guidelines and literature, our model can precisely assess the reasoning quality in a fine-grained manner. Evaluations on five medical QA benchmarks and two open-ended diagnostic tasks demonstrate that Med-PRM achieves state-of-the-art performance, with improving the performance of base models by up to 13.50% using Med-PRM. Moreover, we demonstrate the generality of Med-PRM by integrating it in a plug-and-play fashion with strong policy models such as Meerkat, achieving over 80\% accuracy on MedQA for the first time using small-scale models of 8 billion parameters. Our code and data are available at: https://med-prm.github.io/

Med-PRM : Modèles de raisonnement médical avec récompenses de processus étape par étape vérifiées par des lignes directrices

Med-PRM: Medical Reasoning Models with Stepwise, Guideline-verified Process Rewards

papers.abstract

Support