ChatPaper.aiChatPaper

Gazal-R1: Raggiungere il ragionamento medico allo stato dell'arte con un addestramento a due stadi efficiente in parametri

Gazal-R1: Achieving State-of-the-Art Medical Reasoning with Parameter-Efficient Two-Stage Training

June 18, 2025
Autori: Ahmed M. Adly, Mostafa Samy, Amr Fawzy
cs.AI

Abstract

Presentiamo Gazal-R1, un modello linguistico da 32 miliardi di parametri che raggiunge prestazioni all'avanguardia nel ragionamento medico, fornendo spiegazioni trasparenti e passo-passo per il processo decisionale clinico. Basato su Qwen3 32B, il nostro modello dimostra che un addestramento strategico può consentire a modelli di medie dimensioni di superare controparti significativamente più grandi in domini specializzati. Abbiamo sviluppato una pipeline di addestramento innovativa in due fasi: prima, un fine-tuning supervisionato su un dataset accuratamente curato di 107.033 esempi sintetici di ragionamento medico che insegna un pensiero clinico strutturato, potenziato da tecniche avanzate di efficienza parametrica tra cui Weight-Decomposed Low-Rank Adaptation (DoRA) e Rank-Stabilized LoRA (rsLoRA); seconda, un apprendimento per rinforzo utilizzando Group Relative Policy Optimization (GRPO) con un sofisticato sistema di ricompensa multi-componente che affina precisione, aderenza al formato e qualità del ragionamento. Gazal-R1 ottiene prestazioni eccezionali su benchmark medici, raggiungendo l'87,1% su MedQA, l'81,6% su MMLU Pro (Medical) e il 79,6% su PubMedQA, superando modelli fino a 12 volte più grandi. Oltre ai suoi solidi risultati empirici, questo lavoro fornisce approfondimenti dettagliati sulle sfide dell'addestramento di modelli capaci di ragionamento in domini specializzati, inclusi problemi di reward hacking, instabilità dell'addestramento e la tensione fondamentale tra richiamo fattuale e ragionamento dettagliato. La nostra metodologia offre un framework riproducibile per sviluppare modelli linguistici ad alta capacità e specifici per dominio che bilanciano prestazioni, efficienza e spiegabilità.
English
We present Gazal-R1, a 32-billion-parameter language model that achieves state-of-the-art performance in medical reasoning while providing transparent, step-by-step explanations for clinical decision-making. Built upon Qwen3 32B, our model demonstrates that strategic training can enable mid-sized models to outperform significantly larger counterparts in specialized domains. We developed a novel two-stage training pipeline: first, supervised fine-tuning on a carefully curated dataset of 107,033 synthetic medical reasoning examples that teaches structured clinical thinking, enhanced by advanced parameter-efficient techniques including Weight-Decomposed Low-Rank Adaptation (DoRA) and Rank-Stabilized LoRA (rsLoRA); second, reinforcement learning using Group Relative Policy Optimization (GRPO) with a sophisticated multi-component reward system that refines accuracy, format adherence, and reasoning quality. Gazal-R1 achieves exceptional performance across medical benchmarks, scoring 87.1% on MedQA, 81.6% on MMLU Pro (Medical), and 79.6% on PubMedQA, surpassing models up to 12x larger. Beyond its strong empirical results, this work provides detailed insights into the challenges of training reasoning-capable models in specialized domains, including issues with reward hacking, training instability, and the fundamental tension between factual recall and detailed reasoning. Our methodology offers a reproducible framework for developing high-capability, domain-specific language models that balance performance, efficiency, and explainability.
PDF61June 30, 2025