**Quando o RL Ajuda os VLMs Médicos? Disentrançando os Ganhos da Visão, do SFT e do RL**

Resumo

O aprendizado por reforço (RL) está sendo cada vez mais utilizado para o pós-treinamento de Modelos de Visão e Linguagem (VLMs) médicos, mas ainda não está claro se o RL melhora o raciocínio visual médico ou principalmente aprimora comportamentos já induzidos pelo ajuste fino supervisionado (SFT). Apresentamos um estudo controlado que desagrega esses efeitos ao longo de três eixos: visão, SFT e RL. Usando o MedMNIST como uma plataforma de testes multimodal, investigamos a percepção visual comparando os módulos de visão dos VLMs com baselines apenas visuais, quantificamos o suporte ao raciocínio e a eficiência de amostragem via Acurácia@1 versus Passo@K, e avaliamos quando o RL fecha a lacuna de suporte e como os ganhos se transferem entre modalidades. Descobrimos que o RL é mais eficaz quando o modelo já possui um suporte não trivial (alto Passo@K): ele principalmente aguça a distribuição de saída, melhorando a Acc@1 e a eficiência de amostragem, enquanto o SFT expande o suporte e torna o RL eficaz. Com base nessas descobertas, propomos uma receita consciente do limite e a instanciamos através do pós-treinamento por RL de um modelo inicializado com OctoMed em um subconjunto pequeno e equilibrado de questões de múltipla escolha do PMC-VQA, alcançando um forte desempenho médio em seis benchmarks de VQA médicos.

English

Reinforcement learning (RL) is increasingly used to post-train medical Vision-Language Models (VLMs), yet it remains unclear whether RL improves medical visual reasoning or mainly sharpens behaviors already induced by supervised fine-tuning (SFT). We present a controlled study that disentangles these effects along three axes: vision, SFT, and RL. Using MedMNIST as a multi-modality testbed, we probe visual perception by benchmarking VLM vision towers against vision-only baselines, quantify reasoning support and sampling efficiency via Accuracy@1 versus Pass@K, and evaluate when RL closes the support gap and how gains transfer across modalities. We find that RL is most effective when the model already has non-trivial support (high Pass@K): it primarily sharpens the output distribution, improving Acc@1 and sampling efficiency, while SFT expands support and makes RL effective. Based on these findings, we propose a boundary-aware recipe and instantiate it by RL post-training an OctoMed-initialized model on a small, balanced subset of PMC multiple-choice VQA, achieving strong average performance across six medical VQA benchmarks.

Quando o RL Ajuda os VLMs Médicos? Disentrançando os Ganhos da Visão, do SFT e do RL

When Does RL Help Medical VLMs? Disentangling Vision, SFT, and RL Gains

Resumo

Support