Quando l’RL Aiuta i VLM Medici? Disentangling i Guadagni di Visione, SFT e RL

Abstract

L'apprendimento per rinforzo (RL) viene sempre più utilizzato per il post-addestramento di Modelli Visione-Linguaggio (VLM) medici, ma rimane poco chiaro se il RL migliori effettivamente il ragionamento visivo medico o affini principalmente comportamenti già indotti dalla messa a punto supervisionata (SFT). Presentiamo uno studio controllato che distingue questi effetti lungo tre assi: visione, SFT e RL. Utilizzando MedMNIST come piattaforma di test multi-modalità, analizziamo la percezione visiva confrontando i "vision tower" dei VLM con baseline di sola visione, quantifichiamo il supporto al ragionamento e l'efficienza di campionamento tramite Accuratezza@1 rispetto a Pass@K, e valutiamo quando il RL colma il divario di supporto e come i guadagni si trasferiscano tra le modalità. Scopriamo che il RL è più efficace quando il modello possiede già un supporto non banale (Pass@K alto): esso affina principalmente la distribuzione di output, migliorando Acc@1 e l'efficienza di campionamento, mentre la SFT espande il supporto e rende efficace il RL. Sulla base di questi risultati, proponiamo una procedura "boundary-aware" e la istanziamo post-addestrando con RL un modello inizializzato con OctoMed su un piccolo sottoinsieme bilanciato di VQA a scelta multipla di PMC, ottenendo prestazioni medie solide su sei benchmark di VQA medici.

English

Reinforcement learning (RL) is increasingly used to post-train medical Vision-Language Models (VLMs), yet it remains unclear whether RL improves medical visual reasoning or mainly sharpens behaviors already induced by supervised fine-tuning (SFT). We present a controlled study that disentangles these effects along three axes: vision, SFT, and RL. Using MedMNIST as a multi-modality testbed, we probe visual perception by benchmarking VLM vision towers against vision-only baselines, quantify reasoning support and sampling efficiency via Accuracy@1 versus Pass@K, and evaluate when RL closes the support gap and how gains transfer across modalities. We find that RL is most effective when the model already has non-trivial support (high Pass@K): it primarily sharpens the output distribution, improving Acc@1 and sampling efficiency, while SFT expands support and makes RL effective. Based on these findings, we propose a boundary-aware recipe and instantiate it by RL post-training an OctoMed-initialized model on a small, balanced subset of PMC multiple-choice VQA, achieving strong average performance across six medical VQA benchmarks.

Quando l’RL Aiuta i VLM Medici? Disentangling i Guadagni di Visione, SFT e RL

When Does RL Help Medical VLMs? Disentangling Vision, SFT, and RL Gains

Abstract

Support