MedVLM-R1: Incentivizzare le Capacità di Ragionamento Medico nei Modelli Visione-Linguaggio (VLM) tramite Apprendimento per Rinforzo
MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning
February 26, 2025
Autori: Jiazhen Pan, Che Liu, Junde Wu, Fenglin Liu, Jiayuan Zhu, Hongwei Bran Li, Chen Chen, Cheng Ouyang, Daniel Rueckert
cs.AI
Abstract
Il ragionamento rappresenta una frontiera cruciale per l'avanzamento dell'analisi delle immagini mediche, dove trasparenza e affidabilità svolgono un ruolo centrale sia nella fiducia dei clinici che nell'approvazione normativa. Sebbene i Modelli di Linguaggio Visivo Medico (VLMs) mostrino potenziale per compiti radiologici, la maggior parte dei VLMs esistenti si limita a produrre risposte finali senza rivelare il ragionamento sottostante. Per colmare questa lacuna, introduciamo MedVLM-R1, un VLM medico che genera esplicitamente un ragionamento in linguaggio naturale per migliorare trasparenza e affidabilità. Invece di affidarsi al fine-tuning supervisionato (SFT), che spesso soffre di overfitting rispetto alle distribuzioni di addestramento e non favorisce un ragionamento genuino, MedVLM-R1 utilizza un framework di apprendimento per rinforzo che incentiva il modello a scoprire percorsi di ragionamento interpretabili dall'uomo senza utilizzare alcun riferimento di ragionamento. Nonostante dati di addestramento limitati (600 campioni di risposta a domande visive) e parametri del modello ridotti (2B), MedVLM-R1 aumenta l'accuratezza dal 55,11% al 78,22% su benchmark di risonanza magnetica, TAC e raggi X, superando modelli più grandi addestrati su oltre un milione di campioni. Dimostra inoltre una robusta generalizzazione di dominio in compiti fuori distribuzione. Unendo l'analisi delle immagini mediche con un ragionamento esplicito, MedVLM-R1 rappresenta un passo fondamentale verso un'IA affidabile e interpretabile nella pratica clinica.
English
Reasoning is a critical frontier for advancing medical image analysis, where
transparency and trustworthiness play a central role in both clinician trust
and regulatory approval. Although Medical Visual Language Models (VLMs) show
promise for radiological tasks, most existing VLMs merely produce final answers
without revealing the underlying reasoning. To address this gap, we introduce
MedVLM-R1, a medical VLM that explicitly generates natural language reasoning
to enhance transparency and trustworthiness. Instead of relying on supervised
fine-tuning (SFT), which often suffers from overfitting to training
distributions and fails to foster genuine reasoning, MedVLM-R1 employs a
reinforcement learning framework that incentivizes the model to discover
human-interpretable reasoning paths without using any reasoning references.
Despite limited training data (600 visual question answering samples) and model
parameters (2B), MedVLM-R1 boosts accuracy from 55.11% to 78.22% across MRI,
CT, and X-ray benchmarks, outperforming larger models trained on over a million
samples. It also demonstrates robust domain generalization under
out-of-distribution tasks. By unifying medical image analysis with explicit
reasoning, MedVLM-R1 marks a pivotal step toward trustworthy and interpretable
AI in clinical practice.Summary
AI-Generated Summary