ChatPaper.aiChatPaper

MedVLM-R1: Incentivizando la Capacidad de Razonamiento Médico de Modelos de Visión-Lenguaje (VLM) a través del Aprendizaje por Refuerzo

MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning

February 26, 2025
Autores: Jiazhen Pan, Che Liu, Junde Wu, Fenglin Liu, Jiayuan Zhu, Hongwei Bran Li, Chen Chen, Cheng Ouyang, Daniel Rueckert
cs.AI

Resumen

El razonamiento es una frontera crítica para avanzar en el análisis de imágenes médicas, donde la transparencia y la confiabilidad desempeñan un papel central tanto en la confianza de los clínicos como en la aprobación regulatoria. Aunque los Modelos de Lenguaje Visual Médico (VLMs) muestran promesas para tareas radiológicas, la mayoría de los VLMs existentes simplemente producen respuestas finales sin revelar el razonamiento subyacente. Para abordar esta brecha, presentamos MedVLM-R1, un VLM médico que genera explícitamente razonamientos en lenguaje natural para mejorar la transparencia y la confiabilidad. En lugar de depender del ajuste fino supervisado (SFT), que a menudo sufre de sobreajuste a las distribuciones de entrenamiento y no fomenta un razonamiento genuino, MedVLM-R1 emplea un marco de aprendizaje por refuerzo que incentiva al modelo a descubrir caminos de razonamiento interpretables por humanos sin utilizar referencias de razonamiento. A pesar de los datos de entrenamiento limitados (600 muestras de preguntas visuales) y los parámetros del modelo (2B), MedVLM-R1 aumenta la precisión del 55.11% al 78.22% en las evaluaciones de resonancia magnética (MRI), tomografía computarizada (CT) y radiografías, superando a modelos más grandes entrenados con más de un millón de muestras. También demuestra una generalización de dominio robusta en tareas fuera de la distribución. Al unificar el análisis de imágenes médicas con un razonamiento explícito, MedVLM-R1 marca un paso crucial hacia una IA confiable e interpretable en la práctica clínica.
English
Reasoning is a critical frontier for advancing medical image analysis, where transparency and trustworthiness play a central role in both clinician trust and regulatory approval. Although Medical Visual Language Models (VLMs) show promise for radiological tasks, most existing VLMs merely produce final answers without revealing the underlying reasoning. To address this gap, we introduce MedVLM-R1, a medical VLM that explicitly generates natural language reasoning to enhance transparency and trustworthiness. Instead of relying on supervised fine-tuning (SFT), which often suffers from overfitting to training distributions and fails to foster genuine reasoning, MedVLM-R1 employs a reinforcement learning framework that incentivizes the model to discover human-interpretable reasoning paths without using any reasoning references. Despite limited training data (600 visual question answering samples) and model parameters (2B), MedVLM-R1 boosts accuracy from 55.11% to 78.22% across MRI, CT, and X-ray benchmarks, outperforming larger models trained on over a million samples. It also demonstrates robust domain generalization under out-of-distribution tasks. By unifying medical image analysis with explicit reasoning, MedVLM-R1 marks a pivotal step toward trustworthy and interpretable AI in clinical practice.

Summary

AI-Generated Summary

PDF633February 28, 2025