ChatPaper.aiChatPaper

MedVLM-R1: 강화 학습을 통해 시각-언어 모델(VLMs)의 의료 추론 능력을 장려하기

MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning

February 26, 2025
저자: Jiazhen Pan, Che Liu, Junde Wu, Fenglin Liu, Jiayuan Zhu, Hongwei Bran Li, Chen Chen, Cheng Ouyang, Daniel Rueckert
cs.AI

초록

추론은 의료 이미지 분석을 발전시키는 핵심 분야로, 투명성과 신뢰성은 의료진의 신뢰뿐만 아니라 규제 승인에서도 중요한 역할을 합니다. 의료 비주얼 언어 모델(Medical Visual Language Models, VLMs)은 방사선 작업에 대한 잠재력을 보여주지만, 대부분의 기존 VLM은 근본적인 추론을 드러내지 않고 최종 답변만을 제시합니다. 이 간극을 해결하기 위해 우리는 투명성과 신뢰성을 강화하기 위해 자연어 추론을 명시적으로 생성하는 의료 VLM인 MedVLM-R1을 소개합니다. MedVLM-R1은 훈련 분포에 과적합되는 문제와 진정한 추론을 육성하지 못하는 문제를 가지고 있는 지도된 미세조정(Supervised Fine-Tuning, SFT)에 의존하는 대신, 추론 참조를 사용하지 않고 인간이 이해할 수 있는 추론 경로를 발견하도록 모델을 장려하는 강화 학습 프레임워크를 사용합니다. 600개의 시각적 질문 응답 샘플과 2B의 모델 매개변수로 한정된 훈련 데이터에서 MedVLM-R1은 MRI, CT 및 X-ray 벤치마크에서 정확도를 55.11%에서 78.22%로 향상시켰으며, 백만 개 이상의 샘플로 훈련된 더 큰 모델을 능가했습니다. 또한, 분포 이탈 작업에서 강건한 도메인 일반화를 보여줍니다. 의료 이미지 분석과 명시적 추론을 통합함으로써, MedVLM-R1은 임상 실무에서 신뢰할 수 있고 해석 가능한 AI로 나아가는 중요한 한 걸음을 나아갑니다.
English
Reasoning is a critical frontier for advancing medical image analysis, where transparency and trustworthiness play a central role in both clinician trust and regulatory approval. Although Medical Visual Language Models (VLMs) show promise for radiological tasks, most existing VLMs merely produce final answers without revealing the underlying reasoning. To address this gap, we introduce MedVLM-R1, a medical VLM that explicitly generates natural language reasoning to enhance transparency and trustworthiness. Instead of relying on supervised fine-tuning (SFT), which often suffers from overfitting to training distributions and fails to foster genuine reasoning, MedVLM-R1 employs a reinforcement learning framework that incentivizes the model to discover human-interpretable reasoning paths without using any reasoning references. Despite limited training data (600 visual question answering samples) and model parameters (2B), MedVLM-R1 boosts accuracy from 55.11% to 78.22% across MRI, CT, and X-ray benchmarks, outperforming larger models trained on over a million samples. It also demonstrates robust domain generalization under out-of-distribution tasks. By unifying medical image analysis with explicit reasoning, MedVLM-R1 marks a pivotal step toward trustworthy and interpretable AI in clinical practice.

Summary

AI-Generated Summary

PDF633February 28, 2025