¿Cuándo Ayuda el RL a los VLM Médicos? Desentrañando las Ganancias de la Visión, el Ajuste Fino Supervisado y el Aprendizaje por Refuerzo

Resumen

El aprendizaje por refuerzo (RL) se utiliza cada vez más para el post-entrenamiento de Modelos de Visión y Lenguaje (VLM) médicos, pero aún no está claro si el RL mejora el razonamiento visual médico o principalmente afina comportamientos ya inducidos por el ajuste fino supervisado (SFT). Presentamos un estudio controlado que desentraña estos efectos a lo largo de tres ejes: visión, SFT y RL. Utilizando MedMNIST como banco de pruebas multimodales, analizamos la percepción visual comparando los módulos de visión de los VLM con líneas base de solo visión, cuantificamos el soporte de razonamiento y la eficiencia de muestreo mediante Precisión@1 versus Pase@K, y evaluamos cuándo el RL cierra la brecha de soporte y cómo las ganancias se transfieren entre modalidades. Encontramos que el RL es más efectivo cuando el modelo ya tiene un soporte no trivial (Pase@K alto): principalmente afina la distribución de salida, mejorando la Precisión@1 y la eficiencia de muestreo, mientras que el SFT expande el soporte y hace efectivo al RL. Con base en estos hallazgos, proponemos una receta consciente de los límites y la instanciamos mediante el post-entrenamiento con RL de un modelo inicializado con OctoMed en un subconjunto pequeño y equilibrado de preguntas de opción múltiple de PMC-VQA, logrando un rendimiento promedio sólido en seis benchmarks de VQA médicos.

English

Reinforcement learning (RL) is increasingly used to post-train medical Vision-Language Models (VLMs), yet it remains unclear whether RL improves medical visual reasoning or mainly sharpens behaviors already induced by supervised fine-tuning (SFT). We present a controlled study that disentangles these effects along three axes: vision, SFT, and RL. Using MedMNIST as a multi-modality testbed, we probe visual perception by benchmarking VLM vision towers against vision-only baselines, quantify reasoning support and sampling efficiency via Accuracy@1 versus Pass@K, and evaluate when RL closes the support gap and how gains transfer across modalities. We find that RL is most effective when the model already has non-trivial support (high Pass@K): it primarily sharpens the output distribution, improving Acc@1 and sampling efficiency, while SFT expands support and makes RL effective. Based on these findings, we propose a boundary-aware recipe and instantiate it by RL post-training an OctoMed-initialized model on a small, balanced subset of PMC multiple-choice VQA, achieving strong average performance across six medical VQA benchmarks.

¿Cuándo Ayuda el RL a los VLM Médicos? Desentrañando las Ganancias de la Visión, el Ajuste Fino Supervisado y el Aprendizaje por Refuerzo

When Does RL Help Medical VLMs? Disentangling Vision, SFT, and RL Gains

Resumen

Support