MedVLM-R1: Förderung der medizinischen Denkfähigkeit von Vision-Language-Modellen (VLMs) durch Reinforcement Learning
MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning
February 26, 2025
Autoren: Jiazhen Pan, Che Liu, Junde Wu, Fenglin Liu, Jiayuan Zhu, Hongwei Bran Li, Chen Chen, Cheng Ouyang, Daniel Rueckert
cs.AI
Zusammenfassung
Das Schließen von Schlussfolgerungen stellt eine entscheidende Herausforderung für die Weiterentwicklung der medizinischen Bildanalyse dar, wobei Transparenz und Vertrauenswürdigkeit eine zentrale Rolle für das Vertrauen der Kliniker sowie die regulatorische Zulassung spielen. Obwohl medizinische visuelle Sprachmodelle (VLMs) vielversprechend für radiologische Aufgaben sind, liefern die meisten bestehenden VLMs lediglich endgültige Antworten, ohne die zugrunde liegende Schlussfolgerung offenzulegen. Um diese Lücke zu schließen, stellen wir MedVLM-R1 vor, ein medizinisches VLM, das explizit natürliche Sprachbegründungen erzeugt, um Transparenz und Vertrauenswürdigkeit zu erhöhen. Anstatt auf überwachtes Feinabstimmen (SFT) zurückzugreifen, das häufig zu einer Überanpassung an die Trainingsverteilungen neigt und keine echten Schlussfolgerungen fördert, nutzt MedVLM-R1 ein Reinforcement-Learning-Framework, das das Modell dazu anregt, menscheninterpretierbare Begründungspfade zu entdecken, ohne dabei auf Referenzen für die Schlussfolgerung zurückzugreifen. Trotz begrenzter Trainingsdaten (600 visuelle Frage-Antwort-Beispiele) und Modellparameter (2 Milliarden) steigert MedVLM-R1 die Genauigkeit von 55,11 % auf 78,22 % über MRI-, CT- und Röntgen-Benchmarks hinweg und übertrifft dabei größere Modelle, die mit über einer Million Beispielen trainiert wurden. Es zeigt zudem eine robuste Domänengeneralisierung bei Aufgaben außerhalb der Trainingsverteilung. Durch die Vereinigung von medizinischer Bildanalyse mit expliziten Schlussfolgerungen markiert MedVLM-R1 einen entscheidenden Schritt hin zu vertrauenswürdiger und interpretierbarer KI in der klinischen Praxis.
English
Reasoning is a critical frontier for advancing medical image analysis, where
transparency and trustworthiness play a central role in both clinician trust
and regulatory approval. Although Medical Visual Language Models (VLMs) show
promise for radiological tasks, most existing VLMs merely produce final answers
without revealing the underlying reasoning. To address this gap, we introduce
MedVLM-R1, a medical VLM that explicitly generates natural language reasoning
to enhance transparency and trustworthiness. Instead of relying on supervised
fine-tuning (SFT), which often suffers from overfitting to training
distributions and fails to foster genuine reasoning, MedVLM-R1 employs a
reinforcement learning framework that incentivizes the model to discover
human-interpretable reasoning paths without using any reasoning references.
Despite limited training data (600 visual question answering samples) and model
parameters (2B), MedVLM-R1 boosts accuracy from 55.11% to 78.22% across MRI,
CT, and X-ray benchmarks, outperforming larger models trained on over a million
samples. It also demonstrates robust domain generalization under
out-of-distribution tasks. By unifying medical image analysis with explicit
reasoning, MedVLM-R1 marks a pivotal step toward trustworthy and interpretable
AI in clinical practice.Summary
AI-Generated Summary