MediX-R1: Aprendizado por Reforço Médico de Final Aberto

Resumo

Apresentamos o MediX-R1, uma estrutura de Aprendizagem por Reforço (RL) de resposta aberta para modelos de linguagem grandes multimodais (MLLMs) médicos, que permite respostas de forma livre e clinicamente fundamentadas, indo além de formatos de múltipla escolha. O MediX-R1 ajusta finamente um modelo base de visão e linguagem com RL Baseado em Grupo e uma recompensa composta personalizada para o raciocínio médico: uma recompensa de precisão baseada em LLM que julga a correção semântica com uma decisão estrita de SIM/NÃO, uma recompensa semântica baseada em *embeddings* médicos para capturar paráfrases e variantes terminológicas, e recompensas leves de formato e modalidade que impõem o raciocínio interpretável e o reconhecimento de modalidade. Este design de múltiplos sinais fornece um *feedback* estável e informativo para saídas de resposta aberta, onde as recompensas tradicionais verificáveis ou baseadas apenas em MCQ são insuficientes. Para medir o progresso, propomos uma estrutura de avaliação unificada para tarefas apenas de texto e de imagem+texto que utiliza um LLM-como-juiz Baseado em Referência em substituição a métricas frágeis de sobreposição de texto, capturando a correção semântica, o raciocínio e o alinhamento contextual. Apesar de usar apenas 51K exemplos de instrução simulados, o MediX-R1 alcança excelentes resultados em *benchmarks* padrão de LLM médico (apenas texto) e VLM (imagem + texto), superando fortes *baselines* de código aberto e proporcionando ganhos particularmente grandes em tarefas clínicas de resposta aberta. Os nossos resultados demonstram que a RL de resposta aberta com sinais de recompensa abrangentes e avaliação baseada em LLM é um caminho prático para um raciocínio médico confiável em modelos multimodais. Os nossos modelos treinados, conjuntos de dados curados e código-fonte estão disponíveis em https://medix.cvmbzuai.com.

English

We introduce MediX-R1, an open-ended Reinforcement Learning (RL) framework for medical multimodal large language models (MLLMs) that enables clinically grounded, free-form answers beyond multiple-choice formats. MediX-R1 fine-tunes a baseline vision-language backbone with Group Based RL and a composite reward tailored for medical reasoning: an LLM-based accuracy reward that judges semantic correctness with a strict YES/NO decision, a medical embedding-based semantic reward to capture paraphrases and terminology variants, and lightweight format and modality rewards that enforce interpretable reasoning and modality recognition. This multi-signal design provides stable, informative feedback for open-ended outputs where traditional verifiable or MCQ-only rewards fall short. To measure progress, we propose a unified evaluation framework for both text-only and image+text tasks that uses a Reference-based LLM-as-judge in place of brittle string-overlap metrics, capturing semantic correctness, reasoning, and contextual alignment. Despite using only sim51K instruction examples, MediX-R1 achieves excellent results across standard medical LLM (text-only) and VLM (image + text) benchmarks, outperforming strong open-source baselines and delivering particularly large gains on open-ended clinical tasks. Our results demonstrate that open-ended RL with comprehensive reward signals and LLM-based evaluation is a practical path toward reliable medical reasoning in multimodal models. Our trained models, curated datasets and source code are available at https://medix.cvmbzuai.com

MediX-R1: Aprendizado por Reforço Médico de Final Aberto

MediX-R1: Open Ended Medical Reinforcement Learning

Resumo

Support