MediX-R1: Открытое обучение с подкреплением в медицине

Аннотация

Мы представляем MediX-R1 — открытую среду обучения с подкреплением (Reinforcement Learning, RL) для медицинских мультимодальных больших языковых моделей (MLLM), которая позволяет получать клинически обоснованные ответы в свободной форме, выходящие за рамки формата множественного выбора. MediX-R1 дообучает базовый визуально-языковой бэкбон с помощью группового RL и составного вознаграждения, адаптированного для медицинских рассуждений: вознаграждения за точность на основе LLM, которое оценивает семантическую корректность по строгому решению ДА/НЕТ; семантического вознаграждения на основе медицинческих эмбеддингов для учета парафраз и вариантов терминологии; а также легковесных вознаграждений за формат и модальность, которые обеспечивают интерпретируемость рассуждений и распознавание модальностей. Такая многокомпонентная архитектура обеспечивает стабильную и информативную обратную связь для ответов в свободной форме, где традиционные проверяемые вознаграждения или вознаграждения только за MCQ оказываются неэффективными. Для оценки прогресса мы предлагаем унифицированную систему оценки как для текстовых, так и для задач "изображение+текст", которая использует LLM-арбитра на основе референсных ответов вместо хрупких метрик, основанных на пересечении строк, и учитывает семантическую правильность, логику рассуждений и контекстуальную согласованность. Несмотря на использование всего ~51K примеров инструкций, MediX-R1 демонстрирует превосходные результаты на стандартных бенчмарках для медицинских LLM (только текст) и VLM (изображение + текст), превосходя сильные модели с открытым исходным кодом и показывая особенно значительный прирост качества на задачах с открытыми клиническими вопросами. Наши результаты показывают, что обучение с подкреплением для ответов в свободной форме с комплексными сигналами вознаграждения и LLM-оценкой является практичным путем к созданию надежных систем медицинских рассуждений в мультимодальных моделях. Обученные модели, курируемые наборы данных и исходный код доступны по адресу https://medix.cvmbzuai.com.

English

We introduce MediX-R1, an open-ended Reinforcement Learning (RL) framework for medical multimodal large language models (MLLMs) that enables clinically grounded, free-form answers beyond multiple-choice formats. MediX-R1 fine-tunes a baseline vision-language backbone with Group Based RL and a composite reward tailored for medical reasoning: an LLM-based accuracy reward that judges semantic correctness with a strict YES/NO decision, a medical embedding-based semantic reward to capture paraphrases and terminology variants, and lightweight format and modality rewards that enforce interpretable reasoning and modality recognition. This multi-signal design provides stable, informative feedback for open-ended outputs where traditional verifiable or MCQ-only rewards fall short. To measure progress, we propose a unified evaluation framework for both text-only and image+text tasks that uses a Reference-based LLM-as-judge in place of brittle string-overlap metrics, capturing semantic correctness, reasoning, and contextual alignment. Despite using only sim51K instruction examples, MediX-R1 achieves excellent results across standard medical LLM (text-only) and VLM (image + text) benchmarks, outperforming strong open-source baselines and delivering particularly large gains on open-ended clinical tasks. Our results demonstrate that open-ended RL with comprehensive reward signals and LLM-based evaluation is a practical path toward reliable medical reasoning in multimodal models. Our trained models, curated datasets and source code are available at https://medix.cvmbzuai.com

MediX-R1: Открытое обучение с подкреплением в медицине

MediX-R1: Open Ended Medical Reinforcement Learning

Аннотация

Support