Wann unterstützt RL medizinische VLMs? Entflechtung von Vision-, SFT- und RL-Gewinnen
When Does RL Help Medical VLMs? Disentangling Vision, SFT, and RL Gains
March 1, 2026
Autoren: Ahmadreza Jeddi, Kimia Shaban, Negin Baghbanzadeh, Natasha Sharan, Abhishek Moturu, Elham Dolatabadi, Babak Taati
cs.AI
Zusammenfassung
Reinforcement Learning (RL) wird zunehmend eingesetzt, um medizinische Vision-Language-Modelle (VLMs) nachzutrainieren. Dennoch ist unklar, ob RL das medizinische visuelle Reasoning verbessert oder hauptsächlich Verhaltensweisen verstärkt, die bereits durch Supervised Fine-Tuning (SFT) induziert wurden. Wir präsentieren eine kontrollierte Studie, die diese Effekte entlang drei Achsen entwirrt: Vision, SFT und RL. Unter Verwendung von MedMNIST als multimodale Testplattform untersuchen wir die visuelle Wahrnehmung, indem wir Vision-Tower von VLMs gegen rein visuelle Baselines benchmarken, quantifizieren die Reasoning-Unterstützung und Stichprobeneffizienz mittels Accuracy@1 versus Pass@K und bewerten, wann RL die Unterstützungslücke schließt und wie Gewinne über Modalitäten hinweg transferiert werden. Wir stellen fest, dass RL am effektivsten ist, wenn das Modell bereits eine nicht-triviale Unterstützung (hoher Pass@K) aufweist: Es schärft primär die Ausgabeverteilung, verbessert Acc@1 und die Stichprobeneffizienz, während SFT die Unterstützung erweitert und RL erst wirksam macht. Auf Basis dieser Erkenntnisse schlagen wir ein grenzenbewusstes Rezept vor und instanziieren es durch RL-Nachtraining eines OctoMed-initialisierten Modells auf einer kleinen, balancierten Teilmenge von PMC-Multiple-Choice-VQA, wodurch eine starke durchschnittliche Leistung über sechs medizinische VQA-Benchmarks hinweg erzielt wird.
English
Reinforcement learning (RL) is increasingly used to post-train medical Vision-Language Models (VLMs), yet it remains unclear whether RL improves medical visual reasoning or mainly sharpens behaviors already induced by supervised fine-tuning (SFT). We present a controlled study that disentangles these effects along three axes: vision, SFT, and RL. Using MedMNIST as a multi-modality testbed, we probe visual perception by benchmarking VLM vision towers against vision-only baselines, quantify reasoning support and sampling efficiency via Accuracy@1 versus Pass@K, and evaluate when RL closes the support gap and how gains transfer across modalities. We find that RL is most effective when the model already has non-trivial support (high Pass@K): it primarily sharpens the output distribution, improving Acc@1 and sampling efficiency, while SFT expands support and makes RL effective. Based on these findings, we propose a boundary-aware recipe and instantiate it by RL post-training an OctoMed-initialized model on a small, balanced subset of PMC multiple-choice VQA, achieving strong average performance across six medical VQA benchmarks.