Gazal-R1: State-of-the-Art Medisch Redeneren Bereiken met Parameter-Efficiënte Twee-Fasen Training
Gazal-R1: Achieving State-of-the-Art Medical Reasoning with Parameter-Efficient Two-Stage Training
June 18, 2025
Auteurs: Ahmed M. Adly, Mostafa Samy, Amr Fawzy
cs.AI
Samenvatting
We presenteren Gazal-R1, een taalmodel met 32 miljard parameters dat state-of-the-art prestaties levert in medisch redeneren en tegelijkertijd transparante, stapsgewijze uitleg biedt voor klinische besluitvorming. Gebouwd op Qwen3 32B, toont ons model aan dat strategische training middelgrote modellen in staat stelt om aanzienlijk grotere tegenhangers te overtreffen in gespecialiseerde domeinen. We ontwikkelden een innovatieve tweefasige trainingspijplijn: eerst, supervised fine-tuning op een zorgvuldig samengestelde dataset van 107.033 synthetische voorbeelden van medisch redeneren die gestructureerd klinisch denken aanleert, versterkt door geavanceerde parameter-efficiënte technieken zoals Weight-Decomposed Low-Rank Adaptation (DoRA) en Rank-Stabilized LoRA (rsLoRA); vervolgens, reinforcement learning met Group Relative Policy Optimization (GRPO) met een verfijnd multi-component beloningssysteem dat nauwkeurigheid, formatnaleving en redeneerkwaliteit verbetert. Gazal-R1 behaalt uitzonderlijke prestaties op medische benchmarks, met scores van 87,1% op MedQA, 81,6% op MMLU Pro (Medical) en 79,6% op PubMedQA, en overtreft daarmee modellen tot 12x groter. Naast de sterke empirische resultaten biedt dit werk gedetailleerde inzichten in de uitdagingen van het trainen van redeneervaardige modellen in gespecialiseerde domeinen, waaronder problemen met reward hacking, trainingsinstabiliteit en de fundamentele spanning tussen feitelijke herinnering en gedetailleerd redeneren. Onze methodologie biedt een reproduceerbaar raamwerk voor het ontwikkelen van hoogwaardige, domeinspecifieke taalmodellen die prestaties, efficiëntie en uitlegbaarheid in balans brengen.
English
We present Gazal-R1, a 32-billion-parameter language model that achieves
state-of-the-art performance in medical reasoning while providing transparent,
step-by-step explanations for clinical decision-making. Built upon Qwen3 32B,
our model demonstrates that strategic training can enable mid-sized models to
outperform significantly larger counterparts in specialized domains. We
developed a novel two-stage training pipeline: first, supervised fine-tuning on
a carefully curated dataset of 107,033 synthetic medical reasoning examples
that teaches structured clinical thinking, enhanced by advanced
parameter-efficient techniques including Weight-Decomposed Low-Rank Adaptation
(DoRA) and Rank-Stabilized LoRA (rsLoRA); second, reinforcement learning using
Group Relative Policy Optimization (GRPO) with a sophisticated multi-component
reward system that refines accuracy, format adherence, and reasoning quality.
Gazal-R1 achieves exceptional performance across medical benchmarks, scoring
87.1% on MedQA, 81.6% on MMLU Pro (Medical), and 79.6% on PubMedQA, surpassing
models up to 12x larger. Beyond its strong empirical results, this work
provides detailed insights into the challenges of training reasoning-capable
models in specialized domains, including issues with reward hacking, training
instability, and the fundamental tension between factual recall and detailed
reasoning. Our methodology offers a reproducible framework for developing
high-capability, domain-specific language models that balance performance,
efficiency, and explainability.