Med-PRM: Modelos de Raciocínio Médico com Recompensas de Processo Verificadas por Diretrizes e Passo a Passo

Resumo

Grandes modelos de linguagem têm mostrado potencial na tomada de decisões clínicas, mas as abordagens atuais enfrentam dificuldades em localizar e corrigir erros em etapas específicas do processo de raciocínio. Essa limitação é crítica na medicina, onde identificar e abordar erros de raciocínio é essencial para diagnósticos precisos e cuidados eficazes ao paciente. Apresentamos o Med-PRM, uma estrutura de modelagem de recompensa de processo que utiliza geração aumentada por recuperação para verificar cada etapa do raciocínio em relação a bases de conhecimento médico estabelecidas. Ao verificar etapas intermediárias do raciocínio com evidências recuperadas de diretrizes clínicas e literatura, nosso modelo pode avaliar a qualidade do raciocínio de maneira refinada. Avaliações em cinco benchmarks de perguntas e respostas médicas e duas tarefas diagnósticas de resposta aberta demonstram que o Med-PRM alcança desempenho de ponta, melhorando o desempenho dos modelos base em até 13,50% com o uso do Med-PRM. Além disso, demonstramos a generalidade do Med-PRM ao integrá-lo de forma plug-and-play com modelos de política robustos, como o Meerkat, alcançando pela primeira vez mais de 80% de precisão no MedQA com modelos de pequena escala de 8 bilhões de parâmetros. Nosso código e dados estão disponíveis em: https://med-prm.github.io/

English

Large language models have shown promise in clinical decision making, but current approaches struggle to localize and correct errors at specific steps of the reasoning process. This limitation is critical in medicine, where identifying and addressing reasoning errors is essential for accurate diagnosis and effective patient care. We introduce Med-PRM, a process reward modeling framework that leverages retrieval-augmented generation to verify each reasoning step against established medical knowledge bases. By verifying intermediate reasoning steps with evidence retrieved from clinical guidelines and literature, our model can precisely assess the reasoning quality in a fine-grained manner. Evaluations on five medical QA benchmarks and two open-ended diagnostic tasks demonstrate that Med-PRM achieves state-of-the-art performance, with improving the performance of base models by up to 13.50% using Med-PRM. Moreover, we demonstrate the generality of Med-PRM by integrating it in a plug-and-play fashion with strong policy models such as Meerkat, achieving over 80\% accuracy on MedQA for the first time using small-scale models of 8 billion parameters. Our code and data are available at: https://med-prm.github.io/

Med-PRM: Modelos de Raciocínio Médico com Recompensas de Processo Verificadas por Diretrizes e Passo a Passo

Med-PRM: Medical Reasoning Models with Stepwise, Guideline-verified Process Rewards

Resumo

Support