MediX-R1 : Apprentissage par Renforcement Médical à Ouvert

Résumé

Nous présentons MediX-R1, un cadre d'apprentissage par renforcement (RL) ouvert pour les modèles linguistiques multimodaux (MLLM) médicaux, qui permet des réponses librement formulées et ancrées cliniquement, au-delà des formats à choix multiples. MediX-R1 affine un modèle de base vision-langage grâce à un RL basé sur les groupes et une récompense composite conçue pour le raisonnement médical : une récompense de précision basée sur un LLM qui évalue la justesse sémantique avec une décision stricte OUI/NON, une récompense sémantique basée sur des embeddings médicaux pour capturer les paraphrases et les variantes terminologiques, et des récompenses légères de format et de modalité qui imposent un raisonnement interprétable et une reconnaissance des modalités. Cette conception multi-signaux fournit un retour d'information stable et informatif pour les sorties ouvertes, là où les récompenses traditionnelles vérifiables ou basées uniquement sur les QCM échouent. Pour mesurer les progrès, nous proposons un cadre d'évaluation unifié pour les tâches uniquement textuelles et image+texte, utilisant un LLM-juge basé sur des références à la place des métriques fragiles de chevauchement de chaînes, captant ainsi la justesse sémantique, le raisonnement et l'alignement contextuel. Bien qu'il n'utilise que 51 000 exemples d'instructions simulées, MediX-R1 obtient d'excellents résultats sur les benchmarks standards des LLM médicaux (texte uniquement) et VLM (image + texte), surpassant de solides modèles de référence open-source et réalisant des gains particulièrement importants sur les tâches cliniques ouvertes. Nos résultats démontrent que le RL ouvert avec des signaux de récompense complets et une évaluation basée sur les LLM est une voie pratique vers un raisonnement médical fiable dans les modèles multimodaux. Nos modèles entraînés, nos ensembles de données organisés et notre code source sont disponibles à l'adresse https://medix.cvmbzuai.com.

English

We introduce MediX-R1, an open-ended Reinforcement Learning (RL) framework for medical multimodal large language models (MLLMs) that enables clinically grounded, free-form answers beyond multiple-choice formats. MediX-R1 fine-tunes a baseline vision-language backbone with Group Based RL and a composite reward tailored for medical reasoning: an LLM-based accuracy reward that judges semantic correctness with a strict YES/NO decision, a medical embedding-based semantic reward to capture paraphrases and terminology variants, and lightweight format and modality rewards that enforce interpretable reasoning and modality recognition. This multi-signal design provides stable, informative feedback for open-ended outputs where traditional verifiable or MCQ-only rewards fall short. To measure progress, we propose a unified evaluation framework for both text-only and image+text tasks that uses a Reference-based LLM-as-judge in place of brittle string-overlap metrics, capturing semantic correctness, reasoning, and contextual alignment. Despite using only sim51K instruction examples, MediX-R1 achieves excellent results across standard medical LLM (text-only) and VLM (image + text) benchmarks, outperforming strong open-source baselines and delivering particularly large gains on open-ended clinical tasks. Our results demonstrate that open-ended RL with comprehensive reward signals and LLM-based evaluation is a practical path toward reliable medical reasoning in multimodal models. Our trained models, curated datasets and source code are available at https://medix.cvmbzuai.com

MediX-R1 : Apprentissage par Renforcement Médical à Ouvert

MediX-R1: Open Ended Medical Reinforcement Learning

Résumé

Support