Med-PRM: Модели медицинского рассуждения с пошаговыми вознаграждениями, проверенными на соответствие рекомендациям
Med-PRM: Medical Reasoning Models with Stepwise, Guideline-verified Process Rewards
June 13, 2025
Авторы: Jaehoon Yun, Jiwoong Sohn, Jungwoo Park, Hyunjae Kim, Xiangru Tang, Yanjun Shao, Yonghoe Koo, Minhyeok Ko, Qingyu Chen, Mark Gerstein, Michael Moor, Jaewoo Kang
cs.AI
Аннотация
Крупные языковые модели демонстрируют перспективность в клиническом принятии решений, однако современные подходы испытывают трудности с локализацией и исправлением ошибок на конкретных этапах процесса рассуждений. Это ограничение является критическим в медицине, где выявление и устранение ошибок в рассуждениях крайне важно для точной диагностики и эффективного лечения пациентов. Мы представляем Med-PRM — фреймворк моделирования процесса с использованием вознаграждений, который применяет генерацию, усиленную поиском, для проверки каждого шага рассуждений на соответствие установленным медицинским базам знаний. Проверяя промежуточные этапы рассуждений с использованием данных, извлеченных из клинических рекомендаций и литературы, наша модель позволяет точно оценивать качество рассуждений с высокой детализацией. Оценки на пяти медицинских бенчмарках для вопросов и ответов и двух задачах открытой диагностики показывают, что Med-PRM достигает наилучших результатов, улучшая производительность базовых моделей до 13,50% при использовании Med-PRM. Кроме того, мы демонстрируем универсальность Med-PRM, интегрируя его в режиме "plug-and-play" с мощными моделями политик, такими как Meerkat, впервые достигая точности свыше 80% на MedQA с использованием моделей малого масштаба на 8 миллиардов параметров. Наш код и данные доступны по адресу: https://med-prm.github.io/
English
Large language models have shown promise in clinical decision making, but
current approaches struggle to localize and correct errors at specific steps of
the reasoning process. This limitation is critical in medicine, where
identifying and addressing reasoning errors is essential for accurate diagnosis
and effective patient care. We introduce Med-PRM, a process reward modeling
framework that leverages retrieval-augmented generation to verify each
reasoning step against established medical knowledge bases. By verifying
intermediate reasoning steps with evidence retrieved from clinical guidelines
and literature, our model can precisely assess the reasoning quality in a
fine-grained manner. Evaluations on five medical QA benchmarks and two
open-ended diagnostic tasks demonstrate that Med-PRM achieves state-of-the-art
performance, with improving the performance of base models by up to 13.50%
using Med-PRM. Moreover, we demonstrate the generality of Med-PRM by
integrating it in a plug-and-play fashion with strong policy models such as
Meerkat, achieving over 80\% accuracy on MedQA for the first time using
small-scale models of 8 billion parameters. Our code and data are available at:
https://med-prm.github.io/