Med-PRM: Modelos de Raciocínio Médico com Recompensas de Processo Verificadas por Diretrizes e Passo a Passo
Med-PRM: Medical Reasoning Models with Stepwise, Guideline-verified Process Rewards
June 13, 2025
Autores: Jaehoon Yun, Jiwoong Sohn, Jungwoo Park, Hyunjae Kim, Xiangru Tang, Yanjun Shao, Yonghoe Koo, Minhyeok Ko, Qingyu Chen, Mark Gerstein, Michael Moor, Jaewoo Kang
cs.AI
Resumo
Grandes modelos de linguagem têm mostrado potencial na tomada de decisões clínicas, mas as abordagens atuais enfrentam dificuldades em localizar e corrigir erros em etapas específicas do processo de raciocínio. Essa limitação é crítica na medicina, onde identificar e abordar erros de raciocínio é essencial para diagnósticos precisos e cuidados eficazes ao paciente. Apresentamos o Med-PRM, uma estrutura de modelagem de recompensa de processo que utiliza geração aumentada por recuperação para verificar cada etapa do raciocínio em relação a bases de conhecimento médico estabelecidas. Ao verificar etapas intermediárias do raciocínio com evidências recuperadas de diretrizes clínicas e literatura, nosso modelo pode avaliar a qualidade do raciocínio de maneira refinada. Avaliações em cinco benchmarks de perguntas e respostas médicas e duas tarefas diagnósticas de resposta aberta demonstram que o Med-PRM alcança desempenho de ponta, melhorando o desempenho dos modelos base em até 13,50% com o uso do Med-PRM. Além disso, demonstramos a generalidade do Med-PRM ao integrá-lo de forma plug-and-play com modelos de política robustos, como o Meerkat, alcançando pela primeira vez mais de 80% de precisão no MedQA com modelos de pequena escala de 8 bilhões de parâmetros. Nosso código e dados estão disponíveis em: https://med-prm.github.io/
English
Large language models have shown promise in clinical decision making, but
current approaches struggle to localize and correct errors at specific steps of
the reasoning process. This limitation is critical in medicine, where
identifying and addressing reasoning errors is essential for accurate diagnosis
and effective patient care. We introduce Med-PRM, a process reward modeling
framework that leverages retrieval-augmented generation to verify each
reasoning step against established medical knowledge bases. By verifying
intermediate reasoning steps with evidence retrieved from clinical guidelines
and literature, our model can precisely assess the reasoning quality in a
fine-grained manner. Evaluations on five medical QA benchmarks and two
open-ended diagnostic tasks demonstrate that Med-PRM achieves state-of-the-art
performance, with improving the performance of base models by up to 13.50%
using Med-PRM. Moreover, we demonstrate the generality of Med-PRM by
integrating it in a plug-and-play fashion with strong policy models such as
Meerkat, achieving over 80\% accuracy on MedQA for the first time using
small-scale models of 8 billion parameters. Our code and data are available at:
https://med-prm.github.io/