MediX-R1: Aprendizaje por Refuerzo Médico de Final Abierto
MediX-R1: Open Ended Medical Reinforcement Learning
February 26, 2026
Autores: Sahal Shaji Mullappilly, Mohammed Irfan Kurpath, Omair Mohamed, Mohamed Zidan, Fahad Khan, Salman Khan, Rao Anwer, Hisham Cholakkal
cs.AI
Resumen
Presentamos MediX-R1, un marco de Aprendizaje por Refuerzo (RL) de respuesta abierta para modelos de lenguaje grandes multimodales (MLLM) médicos, que permite respuestas de forma libre con base clínica, más allá de los formatos de opción múltiple. MediX-R1 ajusta un modelo base de visión y lenguaje mediante RL Basado en Grupos y una recompensa compuesta diseñada para el razonamiento médico: una recompensa de precisión basada en un LLM que juzga la corrección semántica con una decisión estricta SÍ/NO, una recompensa semántica basada en *embeddings* médicos para capturar paráfrasis y variantes terminológicas, y recompensas ligeras de formato y modalidad que refuerzan el razonamiento interpretable y el reconocimiento de modalidades. Este diseño de múltiples señales proporciona una retroalimentación estable e informativa para salidas de respuesta abierta, donde las recompensas tradicionales verificables o solo de opción múltiple son insuficientes. Para medir el progreso, proponemos un marco de evaluación unificado para tareas solo de texto y de imagen+texto que utiliza un LLM como juez basado en referencias, en lugar de métricas frágiles de superposición de cadenas, capturando la corrección semántica, el razonamiento y la alineación contextual. A pesar de utilizar solo 51K ejemplos de instrucciones simuladas, MediX-R1 logra excelentes resultados en puntos de referencia estándar de LLM médicos (solo texto) y VLM (imagen + texto), superando a sólidos modelos de código abierto y mostrando mejoras particularmente grandes en tareas clínicas de respuesta abierta. Nuestros resultados demuestran que el RL de respuesta abierta con señales de recompensa integrales y evaluación basada en LLM es un camino práctico hacia un razonamiento médico confiable en modelos multimodales. Nuestros modelos entrenados, conjuntos de datos curados y código fuente están disponibles en https://medix.cvmbzuai.com.
English
We introduce MediX-R1, an open-ended Reinforcement Learning (RL) framework for medical multimodal large language models (MLLMs) that enables clinically grounded, free-form answers beyond multiple-choice formats. MediX-R1 fine-tunes a baseline vision-language backbone with Group Based RL and a composite reward tailored for medical reasoning: an LLM-based accuracy reward that judges semantic correctness with a strict YES/NO decision, a medical embedding-based semantic reward to capture paraphrases and terminology variants, and lightweight format and modality rewards that enforce interpretable reasoning and modality recognition. This multi-signal design provides stable, informative feedback for open-ended outputs where traditional verifiable or MCQ-only rewards fall short. To measure progress, we propose a unified evaluation framework for both text-only and image+text tasks that uses a Reference-based LLM-as-judge in place of brittle string-overlap metrics, capturing semantic correctness, reasoning, and contextual alignment. Despite using only sim51K instruction examples, MediX-R1 achieves excellent results across standard medical LLM (text-only) and VLM (image + text) benchmarks, outperforming strong open-source baselines and delivering particularly large gains on open-ended clinical tasks. Our results demonstrate that open-ended RL with comprehensive reward signals and LLM-based evaluation is a practical path toward reliable medical reasoning in multimodal models. Our trained models, curated datasets and source code are available at https://medix.cvmbzuai.com