Gazal-R1: Достижение передовых результатов в медицинском рассуждении с помощью двухэтапного обучения с эффективным использованием параметров
Gazal-R1: Achieving State-of-the-Art Medical Reasoning with Parameter-Efficient Two-Stage Training
June 18, 2025
Авторы: Ahmed M. Adly, Mostafa Samy, Amr Fawzy
cs.AI
Аннотация
Мы представляем Gazal-R1, языковую модель с 32 миллиардами параметров, которая демонстрирует наилучшие результаты в области медицинского мышления, предоставляя прозрачные пошаговые объяснения для принятия клинических решений. Построенная на основе Qwen3 32B, наша модель показывает, что стратегическое обучение позволяет моделям среднего размера превосходить значительно более крупные аналоги в специализированных областях. Мы разработали инновационный двухэтапный процесс обучения: сначала, контролируемое тонкое обучение на тщательно отобранном наборе данных из 107 033 синтетических примеров медицинского мышления, которое обучает структурированному клиническому мышлению, усиленному передовыми параметрически эффективными методами, включая Weight-Decomposed Low-Rank Adaptation (DoRA) и Rank-Stabilized LoRA (rsLoRA); затем, обучение с подкреплением с использованием Group Relative Policy Optimization (GRPO) с многоуровневой системой вознаграждений, которая улучшает точность, соблюдение формата и качество рассуждений. Gazal-R1 демонстрирует выдающиеся результаты на медицинских тестах, достигая 87,1% на MedQA, 81,6% на MMLU Pro (Medical) и 79,6% на PubMedQA, превосходя модели, которые в 12 раз крупнее. Помимо сильных эмпирических результатов, эта работа предоставляет детальные инсайты о проблемах обучения моделей, способных к рассуждениям в специализированных областях, включая вопросы с манипуляцией вознаграждениями, нестабильностью обучения и фундаментальное противоречие между точным воспроизведением фактов и детальным рассуждением. Наша методология предлагает воспроизводимую структуру для разработки высокопроизводительных, специализированных языковых моделей, которые балансируют производительность, эффективность и объяснимость.
English
We present Gazal-R1, a 32-billion-parameter language model that achieves
state-of-the-art performance in medical reasoning while providing transparent,
step-by-step explanations for clinical decision-making. Built upon Qwen3 32B,
our model demonstrates that strategic training can enable mid-sized models to
outperform significantly larger counterparts in specialized domains. We
developed a novel two-stage training pipeline: first, supervised fine-tuning on
a carefully curated dataset of 107,033 synthetic medical reasoning examples
that teaches structured clinical thinking, enhanced by advanced
parameter-efficient techniques including Weight-Decomposed Low-Rank Adaptation
(DoRA) and Rank-Stabilized LoRA (rsLoRA); second, reinforcement learning using
Group Relative Policy Optimization (GRPO) with a sophisticated multi-component
reward system that refines accuracy, format adherence, and reasoning quality.
Gazal-R1 achieves exceptional performance across medical benchmarks, scoring
87.1% on MedQA, 81.6% on MMLU Pro (Medical), and 79.6% on PubMedQA, surpassing
models up to 12x larger. Beyond its strong empirical results, this work
provides detailed insights into the challenges of training reasoning-capable
models in specialized domains, including issues with reward hacking, training
instability, and the fundamental tension between factual recall and detailed
reasoning. Our methodology offers a reproducible framework for developing
high-capability, domain-specific language models that balance performance,
efficiency, and explainability.