MedVLM-R1: Het stimuleren van de medische redeneervaardigheid van visie-taalmodellen (VLM's) via versterkend leren
MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning
February 26, 2025
Auteurs: Jiazhen Pan, Che Liu, Junde Wu, Fenglin Liu, Jiayuan Zhu, Hongwei Bran Li, Chen Chen, Cheng Ouyang, Daniel Rueckert
cs.AI
Samenvatting
Redenering is een kritieke grens voor de vooruitgang van medische beeldanalyse, waar transparantie en betrouwbaarheid een centrale rol spelen in zowel het vertrouwen van clinici als de goedkeuring door regelgevende instanties. Hoewel Medische Visuele Taalmodellen (VLM's) veelbelovend zijn voor radiologische taken, produceren de meeste bestaande VLM's slechts eindantwoorden zonder de onderliggende redenering bloot te leggen. Om deze lacune aan te pakken, introduceren we MedVLM-R1, een medisch VLM dat expliciet natuurlijke taalredenering genereert om transparantie en betrouwbaarheid te verbeteren. In plaats van te vertrouwen op begeleid fijnafstemmen (SFT), wat vaak lijdt onder overpassing aan trainingsdistributies en niet in staat is om echte redenering te bevorderen, maakt MedVLM-R1 gebruik van een versterkend leerframework dat het model stimuleert om menselijk interpreteerbare redeneringspaden te ontdekken zonder gebruik te maken van enige redeneringsreferenties. Ondanks beperkte trainingsgegevens (600 voorbeeldmonsters voor visuele vraagbeantwoording) en modelparameters (2B), verhoogt MedVLM-R1 de nauwkeurigheid van 55,11% naar 78,22% over MRI, CT en X-ray benchmarks, waarbij het grotere modellen die zijn getraind op meer dan een miljoen monsters overtreft. Het toont ook robuuste domeingeneralisatie onder taken buiten de distributie aan. Door medische beeldanalyse te verenigen met expliciete redenering, markeert MedVLM-R1 een cruciale stap naar betrouwbare en interpreteerbare AI in de klinische praktijk.
English
Reasoning is a critical frontier for advancing medical image analysis, where
transparency and trustworthiness play a central role in both clinician trust
and regulatory approval. Although Medical Visual Language Models (VLMs) show
promise for radiological tasks, most existing VLMs merely produce final answers
without revealing the underlying reasoning. To address this gap, we introduce
MedVLM-R1, a medical VLM that explicitly generates natural language reasoning
to enhance transparency and trustworthiness. Instead of relying on supervised
fine-tuning (SFT), which often suffers from overfitting to training
distributions and fails to foster genuine reasoning, MedVLM-R1 employs a
reinforcement learning framework that incentivizes the model to discover
human-interpretable reasoning paths without using any reasoning references.
Despite limited training data (600 visual question answering samples) and model
parameters (2B), MedVLM-R1 boosts accuracy from 55.11% to 78.22% across MRI,
CT, and X-ray benchmarks, outperforming larger models trained on over a million
samples. It also demonstrates robust domain generalization under
out-of-distribution tasks. By unifying medical image analysis with explicit
reasoning, MedVLM-R1 marks a pivotal step toward trustworthy and interpretable
AI in clinical practice.Summary
AI-Generated Summary