ChatPaper.aiChatPaper

Med-PRM: Modelos de Razonamiento Médico con Recompensas de Proceso Verificadas por Directrices y Paso a Paso

Med-PRM: Medical Reasoning Models with Stepwise, Guideline-verified Process Rewards

June 13, 2025
Autores: Jaehoon Yun, Jiwoong Sohn, Jungwoo Park, Hyunjae Kim, Xiangru Tang, Yanjun Shao, Yonghoe Koo, Minhyeok Ko, Qingyu Chen, Mark Gerstein, Michael Moor, Jaewoo Kang
cs.AI

Resumen

Los grandes modelos de lenguaje han mostrado potencial en la toma de decisiones clínicas, pero los enfoques actuales tienen dificultades para localizar y corregir errores en pasos específicos del proceso de razonamiento. Esta limitación es crítica en medicina, donde identificar y abordar errores de razonamiento es esencial para un diagnóstico preciso y una atención al paciente efectiva. Presentamos Med-PRM, un marco de modelado de recompensas por procesos que aprovecha la generación aumentada con recuperación para verificar cada paso del razonamiento frente a bases de conocimiento médico establecidas. Al verificar los pasos intermedios del razonamiento con evidencia recuperada de guías clínicas y literatura, nuestro modelo puede evaluar de manera precisa y detallada la calidad del razonamiento. Las evaluaciones en cinco benchmarks de preguntas y respuestas médicas y dos tareas de diagnóstico de respuesta abierta demuestran que Med-PRM alcanza un rendimiento de vanguardia, mejorando el rendimiento de los modelos base hasta en un 13,50% al utilizar Med-PRM. Además, demostramos la generalidad de Med-PRM al integrarlo de manera plug-and-play con modelos de políticas robustos como Meerkat, logrando por primera vez una precisión superior al 80% en MedQA utilizando modelos a pequeña escala de 8 mil millones de parámetros. Nuestro código y datos están disponibles en: https://med-prm.github.io/
English
Large language models have shown promise in clinical decision making, but current approaches struggle to localize and correct errors at specific steps of the reasoning process. This limitation is critical in medicine, where identifying and addressing reasoning errors is essential for accurate diagnosis and effective patient care. We introduce Med-PRM, a process reward modeling framework that leverages retrieval-augmented generation to verify each reasoning step against established medical knowledge bases. By verifying intermediate reasoning steps with evidence retrieved from clinical guidelines and literature, our model can precisely assess the reasoning quality in a fine-grained manner. Evaluations on five medical QA benchmarks and two open-ended diagnostic tasks demonstrate that Med-PRM achieves state-of-the-art performance, with improving the performance of base models by up to 13.50% using Med-PRM. Moreover, we demonstrate the generality of Med-PRM by integrating it in a plug-and-play fashion with strong policy models such as Meerkat, achieving over 80\% accuracy on MedQA for the first time using small-scale models of 8 billion parameters. Our code and data are available at: https://med-prm.github.io/
PDF102June 16, 2025