MediX-R1: Offenes medizinisches Verstärkungslernen
MediX-R1: Open Ended Medical Reinforcement Learning
February 26, 2026
Autoren: Sahal Shaji Mullappilly, Mohammed Irfan Kurpath, Omair Mohamed, Mohamed Zidan, Fahad Khan, Salman Khan, Rao Anwer, Hisham Cholakkal
cs.AI
Zusammenfassung
Wir stellen MediX-R1 vor, ein offenes Reinforcement-Learning (RL)-Framework für medizinische multimodale Large Language Models (MLLMs), das klinisch fundierte, freiformulierte Antworten jenseits von Multiple-Choice-Formaten ermöglicht. MediX-R1 feintunt ein Basis-Vision-Sprache-Backbone mit gruppenbasiertem RL und einer zusammengesetzten Belohnungsfunktion, die auf medizinisches Reasoning zugeschnitten ist: eine LLM-basierte Genauigkeitsbelohnung, die die semantische Korrektheit mit einer strengen JA/NEIN-Entscheidung bewertet, eine belohnungsbasierte semantische Belohnung auf Grundlage medizinischer Embeddings, um Paraphrasen und Terminologievarianten zu erfassen, sowie leichtgewichtige Format- und Modalitätsbelohnungen, die interpretierbares Reasoning und Modalitätserkennung erzwingen. Dieser Multi-Signal-Ansatz liefert stabile, informative Rückmeldungen für offene Ausgaben, bei denen traditionelle überprüfbare oder nur auf Multiple-Choice basierende Belohnungsfunktionen versagen. Um Fortschritte zu messen, schlagen wir einen einheitlichen Evaluierungsrahmen für sowohl rein textbasierte als auch Bild+Text-Aufgaben vor, der einen referenzbasierten LLM-as-Judge anstelle von anfälligen String-Überlappungsmetriken verwendet und semantische Korrektheit, Reasoning und kontextuelle Ausrichtung erfasst. Trotz der Verwendung von nur sim51K Instruktionsbeispielen erzielt MediX-R1 exzellente Ergebnisse über Standard-Benchmarks für medizinische LLMs (nur Text) und VLMs (Bild + Text) hinweg, übertrifft starke Open-Source-Baselines und erzielt besonders große Verbesserungen bei offenen klinischen Aufgaben. Unsere Ergebnisse demonstrieren, dass offenes RL mit umfassenden Belohnungssignalen und LLM-basierter Evaluation ein praktikabler Weg zu zuverlässigem medizinischem Reasoning in multimodalen Modellen ist. Unsere trainierten Modelle, kuratierten Datensätze und der Quellcode sind verfügbar unter https://medix.cvmbzuai.com.
English
We introduce MediX-R1, an open-ended Reinforcement Learning (RL) framework for medical multimodal large language models (MLLMs) that enables clinically grounded, free-form answers beyond multiple-choice formats. MediX-R1 fine-tunes a baseline vision-language backbone with Group Based RL and a composite reward tailored for medical reasoning: an LLM-based accuracy reward that judges semantic correctness with a strict YES/NO decision, a medical embedding-based semantic reward to capture paraphrases and terminology variants, and lightweight format and modality rewards that enforce interpretable reasoning and modality recognition. This multi-signal design provides stable, informative feedback for open-ended outputs where traditional verifiable or MCQ-only rewards fall short. To measure progress, we propose a unified evaluation framework for both text-only and image+text tasks that uses a Reference-based LLM-as-judge in place of brittle string-overlap metrics, capturing semantic correctness, reasoning, and contextual alignment. Despite using only sim51K instruction examples, MediX-R1 achieves excellent results across standard medical LLM (text-only) and VLM (image + text) benchmarks, outperforming strong open-source baselines and delivering particularly large gains on open-ended clinical tasks. Our results demonstrate that open-ended RL with comprehensive reward signals and LLM-based evaluation is a practical path toward reliable medical reasoning in multimodal models. Our trained models, curated datasets and source code are available at https://medix.cvmbzuai.com