Gazal-R1: Erreichen von Spitzenleistungen im medizinischen Denken durch parameter-effizientes zweistufiges Training
Gazal-R1: Achieving State-of-the-Art Medical Reasoning with Parameter-Efficient Two-Stage Training
June 18, 2025
Autoren: Ahmed M. Adly, Mostafa Samy, Amr Fawzy
cs.AI
Zusammenfassung
Wir präsentieren Gazal-R1, ein Sprachmodell mit 32 Milliarden Parametern, das Spitzenleistungen im medizinischen Denken erzielt und dabei transparente, schrittweise Erklärungen für klinische Entscheidungsprozesse liefert. Basierend auf Qwen3 32B zeigt unser Modell, dass strategisches Training mittelgroße Modelle befähigen kann, deutlich größere Gegenstücke in spezialisierten Domänen zu übertreffen. Wir entwickelten eine neuartige zweistufige Trainingspipeline: Zuerst erfolgte ein überwachtes Feintuning anhand eines sorgfältig kuratierten Datensatzes von 107.033 synthetischen Beispielen für medizinisches Denken, das strukturiertes klinisches Denken vermittelt, unterstützt durch fortschrittliche parameter-effiziente Techniken wie Weight-Decomposed Low-Rank Adaptation (DoRA) und Rank-Stabilized LoRA (rsLoRA). Anschließend wurde Reinforcement Learning mittels Group Relative Policy Optimization (GRPO) mit einem ausgeklügelten Multi-Komponenten-Belohnungssystem eingesetzt, das Genauigkeit, Formatkonformität und die Qualität der Argumentation verfeinert. Gazal-R1 erzielt herausragende Leistungen in medizinischen Benchmarks, mit 87,1 % auf MedQA, 81,6 % auf MMLU Pro (Medical) und 79,6 % auf PubMedQA, womit es Modelle bis zum 12-fachen seiner Größe übertrifft. Neben den starken empirischen Ergebnissen bietet diese Arbeit detaillierte Einblicke in die Herausforderungen beim Training von Modellen mit Argumentationsfähigkeit in spezialisierten Domänen, einschließlich Problemen wie Reward Hacking, Trainingsinstabilität und der grundlegenden Spannung zwischen Faktenabruf und detaillierter Argumentation. Unsere Methodik bietet einen reproduzierbaren Rahmen für die Entwicklung leistungsstarker, domänenspezifischer Sprachmodelle, die Leistung, Effizienz und Erklärbarkeit in Einklang bringen.
English
We present Gazal-R1, a 32-billion-parameter language model that achieves
state-of-the-art performance in medical reasoning while providing transparent,
step-by-step explanations for clinical decision-making. Built upon Qwen3 32B,
our model demonstrates that strategic training can enable mid-sized models to
outperform significantly larger counterparts in specialized domains. We
developed a novel two-stage training pipeline: first, supervised fine-tuning on
a carefully curated dataset of 107,033 synthetic medical reasoning examples
that teaches structured clinical thinking, enhanced by advanced
parameter-efficient techniques including Weight-Decomposed Low-Rank Adaptation
(DoRA) and Rank-Stabilized LoRA (rsLoRA); second, reinforcement learning using
Group Relative Policy Optimization (GRPO) with a sophisticated multi-component
reward system that refines accuracy, format adherence, and reasoning quality.
Gazal-R1 achieves exceptional performance across medical benchmarks, scoring
87.1% on MedQA, 81.6% on MMLU Pro (Medical), and 79.6% on PubMedQA, surpassing
models up to 12x larger. Beyond its strong empirical results, this work
provides detailed insights into the challenges of training reasoning-capable
models in specialized domains, including issues with reward hacking, training
instability, and the fundamental tension between factual recall and detailed
reasoning. Our methodology offers a reproducible framework for developing
high-capability, domain-specific language models that balance performance,
efficiency, and explainability.