Gazal-R1: Alcançando o Estado da Arte no Raciocínio Médico com Treinamento em Duas Etapas Eficiente em Parâmetros
Gazal-R1: Achieving State-of-the-Art Medical Reasoning with Parameter-Efficient Two-Stage Training
June 18, 2025
Autores: Ahmed M. Adly, Mostafa Samy, Amr Fawzy
cs.AI
Resumo
Apresentamos o Gazal-R1, um modelo de linguagem com 32 bilhões de parâmetros que alcança desempenho de ponta em raciocínio médico, fornecendo explicações transparentes e passo a passo para a tomada de decisões clínicas. Construído com base no Qwen3 32B, nosso modelo demonstra que o treinamento estratégico pode permitir que modelos de tamanho médio superem contrapartes significativamente maiores em domínios especializados. Desenvolvemos um pipeline de treinamento inovador em duas etapas: primeiro, ajuste fino supervisionado em um conjunto de dados cuidadosamente curado de 107.033 exemplos sintéticos de raciocínio médico que ensinam o pensamento clínico estruturado, aprimorado por técnicas avançadas de eficiência paramétrica, incluindo Adaptação de Baixa Classificação com Decomposição de Peso (DoRA) e LoRA com Estabilização de Classificação (rsLoRA); segundo, aprendizado por reforço utilizando Otimização de Política Relativa em Grupo (GRPO) com um sistema de recompensa multicomponente sofisticado que refina precisão, aderência ao formato e qualidade do raciocínio. O Gazal-R1 alcança desempenho excepcional em benchmarks médicos, obtendo 87,1% no MedQA, 81,6% no MMLU Pro (Medical) e 79,6% no PubMedQA, superando modelos até 12 vezes maiores. Além de seus fortes resultados empíricos, este trabalho fornece insights detalhados sobre os desafios de treinar modelos com capacidade de raciocínio em domínios especializados, incluindo problemas com manipulação de recompensas, instabilidade no treinamento e a tensão fundamental entre a recuperação factual e o raciocínio detalhado. Nossa metodologia oferece um framework reproduzível para o desenvolvimento de modelos de linguagem de alta capacidade e específicos para domínios, equilibrando desempenho, eficiência e explicabilidade.
English
We present Gazal-R1, a 32-billion-parameter language model that achieves
state-of-the-art performance in medical reasoning while providing transparent,
step-by-step explanations for clinical decision-making. Built upon Qwen3 32B,
our model demonstrates that strategic training can enable mid-sized models to
outperform significantly larger counterparts in specialized domains. We
developed a novel two-stage training pipeline: first, supervised fine-tuning on
a carefully curated dataset of 107,033 synthetic medical reasoning examples
that teaches structured clinical thinking, enhanced by advanced
parameter-efficient techniques including Weight-Decomposed Low-Rank Adaptation
(DoRA) and Rank-Stabilized LoRA (rsLoRA); second, reinforcement learning using
Group Relative Policy Optimization (GRPO) with a sophisticated multi-component
reward system that refines accuracy, format adherence, and reasoning quality.
Gazal-R1 achieves exceptional performance across medical benchmarks, scoring
87.1% on MedQA, 81.6% on MMLU Pro (Medical), and 79.6% on PubMedQA, surpassing
models up to 12x larger. Beyond its strong empirical results, this work
provides detailed insights into the challenges of training reasoning-capable
models in specialized domains, including issues with reward hacking, training
instability, and the fundamental tension between factual recall and detailed
reasoning. Our methodology offers a reproducible framework for developing
high-capability, domain-specific language models that balance performance,
efficiency, and explainability.