MediX-R1: Open-Einde Medisch Reinforcement Learning

Samenvatting

Wij introduceren MediX-R1, een open Reinforcement Learning (RL) kader voor medische multimodale grote taalmodellen (MLLM's) dat klinisch onderbouwde, vrije-vorm antwoorden mogelijk maakt, voorbij meerkeuzeformats. MediX-R1 fine-tunt een visie-taal basisarchitectuur met Group Based RL en een samengestelde beloning die is toegesneden op medisch redeneren: een op een LLM gebaseerde nauwkeurigheidsbeloning die de semantische correctheid beoordeelt met een strikte JA/NEE-beslissing, een op medische embeddings gebaseerde semantische beloning om parafrases en terminologievarianten te vangen, en lichtgewicht formaat- en modaliteitsbeloningen die interpreteerbaar redeneren en modaliteitsherkenning afdwingen. Dit multi-signaal ontwerp biedt stabiele, informatieve feedback voor open uitvoer, waar traditionele verifieerbare of uitsluitend-meerkeuze beloningen tekortschieten. Om vooruitgang te meten, stellen we een uniform evaluatiekader voor voor zowel tekst-only als beeld+tekst taken, dat een referentie-gebaseerde LLM-as-judge gebruikt in plaats van broze string-overlap metrieken, om semantische correctheid, redenering en contextuele afstemming te vangen. Ondanks het gebruik van slechts sim51K instructievoorbeelden, behaalt MediX-R1 uitstekende resultaten op standaard medische LLM (tekst-only) en VLM (beeld + tekst) benchmarks, waarbij het sterke open-source basislijnen overtreft en met name grote vooruitgang boekt op open klinische taken. Onze resultaten tonen aan dat open RL met uitgebreide beloningssignalen en op LLM gebaseerde evaluatie een praktisch pad is naar betrouwbaar medisch redeneren in multimodale modellen. Onze getrainde modellen, gecureerde datasets en broncode zijn beschikbaar op https://medix.cvmbzuai.com.

English

We introduce MediX-R1, an open-ended Reinforcement Learning (RL) framework for medical multimodal large language models (MLLMs) that enables clinically grounded, free-form answers beyond multiple-choice formats. MediX-R1 fine-tunes a baseline vision-language backbone with Group Based RL and a composite reward tailored for medical reasoning: an LLM-based accuracy reward that judges semantic correctness with a strict YES/NO decision, a medical embedding-based semantic reward to capture paraphrases and terminology variants, and lightweight format and modality rewards that enforce interpretable reasoning and modality recognition. This multi-signal design provides stable, informative feedback for open-ended outputs where traditional verifiable or MCQ-only rewards fall short. To measure progress, we propose a unified evaluation framework for both text-only and image+text tasks that uses a Reference-based LLM-as-judge in place of brittle string-overlap metrics, capturing semantic correctness, reasoning, and contextual alignment. Despite using only sim51K instruction examples, MediX-R1 achieves excellent results across standard medical LLM (text-only) and VLM (image + text) benchmarks, outperforming strong open-source baselines and delivering particularly large gains on open-ended clinical tasks. Our results demonstrate that open-ended RL with comprehensive reward signals and LLM-based evaluation is a practical path toward reliable medical reasoning in multimodal models. Our trained models, curated datasets and source code are available at https://medix.cvmbzuai.com

MediX-R1: Open-Einde Medisch Reinforcement Learning

MediX-R1: Open Ended Medical Reinforcement Learning

Samenvatting

Support