MediX-R1: Apprendimento per Rinforzo Medico a Risposta Aperta

Abstract

Introduciamo MediX-R1, un framework di Apprendimento per Rinforzo (RL) open-ended per modelli linguistici multimodali (MLLM) in ambito medico, che consente risposte a forma libera, clinicamente fondate, andando oltre i formati a scelta multipla. MediX-R1 effettua il fine-tuning di un modello base visione-linguaggio utilizzando il Group Based RL e una ricompensa composita studiata per il ragionamento medico: una ricompensa di accuratezza basata su LLM che valuta la correttezza semantica con una decisione rigida SI/NO, una ricompensa semantica basata su embedding medico per catturare parafrasi e varianti terminologiche, e ricompense leggere di formato e modalità che impongono un ragionamento interpretabile e il riconoscimento delle modalità. Questo design multi-segnale fornisce un feedback stabile e informativo per output open-ended, laddove le ricompense tradizionali basate su metriche verificabili o solo MCQ sono inefficaci. Per misurare i progressi, proponiamo un framework di valutazione unificato per task sia di solo testo che di immagine+testo, che utilizza un LLM-as-judge basato su riferimenti al posto di metriche fragili di sovrapposizione stringa, catturando la correttezza semantica, il ragionamento e l'allineamento contestuale. Nonostante l'utilizzo di soli 51K esempi di istruzione simulati, MediX-R1 ottiene risultati eccellenti su benchmark standard per LLM medici (solo testo) e VLM (immagine + testo), superando solidi baseline open-source e registrando miglioramenti particolarmente significativi su task clinici open-ended. I nostri risultati dimostrano che l'RL open-ended con segnali di ricompensa completi e una valutazione basata su LLM rappresenta un percorso praticabile verso un ragionamento medico affidabile nei modelli multimodali. I nostri modelli addestrati, i dataset curati e il codice sorgente sono disponibili su https://medix.cvmbzuai.com.

English

We introduce MediX-R1, an open-ended Reinforcement Learning (RL) framework for medical multimodal large language models (MLLMs) that enables clinically grounded, free-form answers beyond multiple-choice formats. MediX-R1 fine-tunes a baseline vision-language backbone with Group Based RL and a composite reward tailored for medical reasoning: an LLM-based accuracy reward that judges semantic correctness with a strict YES/NO decision, a medical embedding-based semantic reward to capture paraphrases and terminology variants, and lightweight format and modality rewards that enforce interpretable reasoning and modality recognition. This multi-signal design provides stable, informative feedback for open-ended outputs where traditional verifiable or MCQ-only rewards fall short. To measure progress, we propose a unified evaluation framework for both text-only and image+text tasks that uses a Reference-based LLM-as-judge in place of brittle string-overlap metrics, capturing semantic correctness, reasoning, and contextual alignment. Despite using only sim51K instruction examples, MediX-R1 achieves excellent results across standard medical LLM (text-only) and VLM (image + text) benchmarks, outperforming strong open-source baselines and delivering particularly large gains on open-ended clinical tasks. Our results demonstrate that open-ended RL with comprehensive reward signals and LLM-based evaluation is a practical path toward reliable medical reasoning in multimodal models. Our trained models, curated datasets and source code are available at https://medix.cvmbzuai.com

MediX-R1: Apprendimento per Rinforzo Medico a Risposta Aperta

MediX-R1: Open Ended Medical Reinforcement Learning

Abstract

Support