Gazal-R1 : Atteindre un raisonnement médical de pointe grâce à un entraînement bi-étapes efficace en paramètres
Gazal-R1: Achieving State-of-the-Art Medical Reasoning with Parameter-Efficient Two-Stage Training
June 18, 2025
Auteurs: Ahmed M. Adly, Mostafa Samy, Amr Fawzy
cs.AI
Résumé
Nous présentons Gazal-R1, un modèle de langage de 32 milliards de paramètres qui atteint des performances de pointe en raisonnement médical tout en fournissant des explications transparentes et étape par étape pour la prise de décision clinique. Basé sur Qwen3 32B, notre modèle démontre qu'un entraînement stratégique peut permettre à des modèles de taille moyenne de surpasser des modèles nettement plus grands dans des domaines spécialisés. Nous avons développé un pipeline d'entraînement innovant en deux étapes : premièrement, un fine-tuning supervisé sur un ensemble de données soigneusement sélectionné de 107 033 exemples synthétiques de raisonnement médical qui enseigne une pensée clinique structurée, renforcée par des techniques avancées d'adaptation efficace des paramètres, notamment la Weight-Decomposed Low-Rank Adaptation (DoRA) et la Rank-Stabilized LoRA (rsLoRA) ; deuxièmement, un apprentissage par renforcement utilisant la Group Relative Policy Optimization (GRPO) avec un système de récompense multicomposant sophistiqué qui affine la précision, le respect du format et la qualité du raisonnement. Gazal-R1 obtient des performances exceptionnelles sur les benchmarks médicaux, avec des scores de 87,1 % sur MedQA, 81,6 % sur MMLU Pro (Medical) et 79,6 % sur PubMedQA, surpassant des modèles jusqu'à 12 fois plus grands. Au-delà de ses solides résultats empiriques, ce travail offre des insights détaillés sur les défis de l'entraînement de modèles capables de raisonner dans des domaines spécialisés, notamment les problèmes de récompense abusive, d'instabilité de l'entraînement et la tension fondamentale entre la mémorisation des faits et le raisonnement détaillé. Notre méthodologie propose un cadre reproductible pour développer des modèles de langage à haute capacité, spécifiques à un domaine, qui équilibrent performance, efficacité et explicabilité.
English
We present Gazal-R1, a 32-billion-parameter language model that achieves
state-of-the-art performance in medical reasoning while providing transparent,
step-by-step explanations for clinical decision-making. Built upon Qwen3 32B,
our model demonstrates that strategic training can enable mid-sized models to
outperform significantly larger counterparts in specialized domains. We
developed a novel two-stage training pipeline: first, supervised fine-tuning on
a carefully curated dataset of 107,033 synthetic medical reasoning examples
that teaches structured clinical thinking, enhanced by advanced
parameter-efficient techniques including Weight-Decomposed Low-Rank Adaptation
(DoRA) and Rank-Stabilized LoRA (rsLoRA); second, reinforcement learning using
Group Relative Policy Optimization (GRPO) with a sophisticated multi-component
reward system that refines accuracy, format adherence, and reasoning quality.
Gazal-R1 achieves exceptional performance across medical benchmarks, scoring
87.1% on MedQA, 81.6% on MMLU Pro (Medical), and 79.6% on PubMedQA, surpassing
models up to 12x larger. Beyond its strong empirical results, this work
provides detailed insights into the challenges of training reasoning-capable
models in specialized domains, including issues with reward hacking, training
instability, and the fundamental tension between factual recall and detailed
reasoning. Our methodology offers a reproducible framework for developing
high-capability, domain-specific language models that balance performance,
efficiency, and explainability.