Quand l'apprentissage par renforcement améliore-t-il les VLM médicaux ? Distinguer les gains visuels, de SFT et de RL

Résumé

L'apprentissage par renforcement (RL) est de plus en plus utilisé pour post-entraîner les modèles vision-langage (VLM) médicaux, mais il reste incertain de savoir si le RL améliore réellement le raisonnement visuel médical ou s'il affine principalement des comportements déjà induits par le fine-tuning supervisé (SFT). Nous présentons une étude contrôlée qui dissocie ces effets selon trois axes : la vision, le SFT et le RL. En utilisant MedMNIST comme banc d'essai multi-modal, nous sondons la perception visuelle en comparant les tours de vision des VLM à des modèles de référence purement visuels, nous quantifions le support du raisonnement et l'efficacité d'échantillonnage via Accuracy@1 versus Pass@K, et nous évaluons quand le RL comble l'écart de support et comment les gains se transfèrent entre les modalités. Nous constatons que le RL est plus efficace lorsque le modèle dispose déjà d'un support non négligeable (Pass@K élevé) : il affine principalement la distribution de sortie, améliorant l'Acc@1 et l'efficacité d'échantillonnage, tandis que le SFT élargit le support et rend le RL efficace. Sur la base de ces résultats, nous proposons une méthode sensible aux limites et l'instancions en post-entraînant par RL un modèle initialisé avec OctoMed sur un petit sous-ensemble équilibré de questions à choix multiples VQA de PMC, obtenant ainsi de solides performances moyennes sur six benchmarks de VQA médicale.

English

Reinforcement learning (RL) is increasingly used to post-train medical Vision-Language Models (VLMs), yet it remains unclear whether RL improves medical visual reasoning or mainly sharpens behaviors already induced by supervised fine-tuning (SFT). We present a controlled study that disentangles these effects along three axes: vision, SFT, and RL. Using MedMNIST as a multi-modality testbed, we probe visual perception by benchmarking VLM vision towers against vision-only baselines, quantify reasoning support and sampling efficiency via Accuracy@1 versus Pass@K, and evaluate when RL closes the support gap and how gains transfer across modalities. We find that RL is most effective when the model already has non-trivial support (high Pass@K): it primarily sharpens the output distribution, improving Acc@1 and sampling efficiency, while SFT expands support and makes RL effective. Based on these findings, we propose a boundary-aware recipe and instantiate it by RL post-training an OctoMed-initialized model on a small, balanced subset of PMC multiple-choice VQA, achieving strong average performance across six medical VQA benchmarks.

Quand l'apprentissage par renforcement améliore-t-il les VLM médicaux ? Distinguer les gains visuels, de SFT et de RL

When Does RL Help Medical VLMs? Disentangling Vision, SFT, and RL Gains

Résumé

Support