ChatPaper.aiChatPaper

MedVLM-R1: Het stimuleren van de medische redeneervaardigheid van visie-taalmodellen (VLM's) via versterkend leren

MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning

February 26, 2025
Auteurs: Jiazhen Pan, Che Liu, Junde Wu, Fenglin Liu, Jiayuan Zhu, Hongwei Bran Li, Chen Chen, Cheng Ouyang, Daniel Rueckert
cs.AI

Samenvatting

Redenering is een kritieke grens voor de vooruitgang van medische beeldanalyse, waar transparantie en betrouwbaarheid een centrale rol spelen in zowel het vertrouwen van clinici als de goedkeuring door regelgevende instanties. Hoewel Medische Visuele Taalmodellen (VLM's) veelbelovend zijn voor radiologische taken, produceren de meeste bestaande VLM's slechts eindantwoorden zonder de onderliggende redenering bloot te leggen. Om deze lacune aan te pakken, introduceren we MedVLM-R1, een medisch VLM dat expliciet natuurlijke taalredenering genereert om transparantie en betrouwbaarheid te verbeteren. In plaats van te vertrouwen op begeleid fijnafstemmen (SFT), wat vaak lijdt onder overpassing aan trainingsdistributies en niet in staat is om echte redenering te bevorderen, maakt MedVLM-R1 gebruik van een versterkend leerframework dat het model stimuleert om menselijk interpreteerbare redeneringspaden te ontdekken zonder gebruik te maken van enige redeneringsreferenties. Ondanks beperkte trainingsgegevens (600 voorbeeldmonsters voor visuele vraagbeantwoording) en modelparameters (2B), verhoogt MedVLM-R1 de nauwkeurigheid van 55,11% naar 78,22% over MRI, CT en X-ray benchmarks, waarbij het grotere modellen die zijn getraind op meer dan een miljoen monsters overtreft. Het toont ook robuuste domeingeneralisatie onder taken buiten de distributie aan. Door medische beeldanalyse te verenigen met expliciete redenering, markeert MedVLM-R1 een cruciale stap naar betrouwbare en interpreteerbare AI in de klinische praktijk.
English
Reasoning is a critical frontier for advancing medical image analysis, where transparency and trustworthiness play a central role in both clinician trust and regulatory approval. Although Medical Visual Language Models (VLMs) show promise for radiological tasks, most existing VLMs merely produce final answers without revealing the underlying reasoning. To address this gap, we introduce MedVLM-R1, a medical VLM that explicitly generates natural language reasoning to enhance transparency and trustworthiness. Instead of relying on supervised fine-tuning (SFT), which often suffers from overfitting to training distributions and fails to foster genuine reasoning, MedVLM-R1 employs a reinforcement learning framework that incentivizes the model to discover human-interpretable reasoning paths without using any reasoning references. Despite limited training data (600 visual question answering samples) and model parameters (2B), MedVLM-R1 boosts accuracy from 55.11% to 78.22% across MRI, CT, and X-ray benchmarks, outperforming larger models trained on over a million samples. It also demonstrates robust domain generalization under out-of-distribution tasks. By unifying medical image analysis with explicit reasoning, MedVLM-R1 marks a pivotal step toward trustworthy and interpretable AI in clinical practice.

Summary

AI-Generated Summary

PDF633February 28, 2025