MedVLM-R1: Incentivizando a Capacidade de Raciocínio Médico de Modelos de Visão-Linguagem (VLMs) por meio de Aprendizado por Reforço
MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning
February 26, 2025
Autores: Jiazhen Pan, Che Liu, Junde Wu, Fenglin Liu, Jiayuan Zhu, Hongwei Bran Li, Chen Chen, Cheng Ouyang, Daniel Rueckert
cs.AI
Resumo
O raciocínio é uma fronteira crítica para o avanço da análise de imagens médicas, onde a transparência e confiabilidade desempenham um papel central tanto na confiança dos clínicos quanto na aprovação regulatória. Embora os Modelos de Linguagem Visual Médica (VLMs) mostrem promessa para tarefas radiológicas, a maioria dos VLMs existentes apenas produz respostas finais sem revelar o raciocínio subjacente. Para abordar essa lacuna, apresentamos o MedVLM-R1, um VLM médico que gera explicitamente raciocínio em linguagem natural para aprimorar a transparência e confiabilidade. Em vez de depender do ajuste fino supervisionado (SFT), que frequentemente sofre com ajuste excessivo às distribuições de treinamento e falha em promover um raciocínio genuíno, o MedVLM-R1 emprega um framework de aprendizado por reforço que incentiva o modelo a descobrir caminhos de raciocínio interpretáveis pelos humanos sem utilizar quaisquer referências de raciocínio. Apesar dos dados de treinamento limitados (600 amostras de perguntas visuais) e dos parâmetros do modelo (2B), o MedVLM-R1 aumenta a precisão de 55,11% para 78,22% em benchmarks de ressonância magnética, tomografia computadorizada e raio-X, superando modelos maiores treinados em mais de um milhão de amostras. Ele também demonstra uma generalização de domínio robusta em tarefas fora da distribuição. Ao unificar a análise de imagens médicas com raciocínio explícito, o MedVLM-R1 marca um passo fundamental em direção a uma IA confiável e interpretável na prática clínica.
English
Reasoning is a critical frontier for advancing medical image analysis, where
transparency and trustworthiness play a central role in both clinician trust
and regulatory approval. Although Medical Visual Language Models (VLMs) show
promise for radiological tasks, most existing VLMs merely produce final answers
without revealing the underlying reasoning. To address this gap, we introduce
MedVLM-R1, a medical VLM that explicitly generates natural language reasoning
to enhance transparency and trustworthiness. Instead of relying on supervised
fine-tuning (SFT), which often suffers from overfitting to training
distributions and fails to foster genuine reasoning, MedVLM-R1 employs a
reinforcement learning framework that incentivizes the model to discover
human-interpretable reasoning paths without using any reasoning references.
Despite limited training data (600 visual question answering samples) and model
parameters (2B), MedVLM-R1 boosts accuracy from 55.11% to 78.22% across MRI,
CT, and X-ray benchmarks, outperforming larger models trained on over a million
samples. It also demonstrates robust domain generalization under
out-of-distribution tasks. By unifying medical image analysis with explicit
reasoning, MedVLM-R1 marks a pivotal step toward trustworthy and interpretable
AI in clinical practice.Summary
AI-Generated Summary