Gazal-R1: Lograr un razonamiento médico de vanguardia con un entrenamiento eficiente en parámetros en dos etapas
Gazal-R1: Achieving State-of-the-Art Medical Reasoning with Parameter-Efficient Two-Stage Training
June 18, 2025
Autores: Ahmed M. Adly, Mostafa Samy, Amr Fawzy
cs.AI
Resumen
Presentamos Gazal-R1, un modelo de lenguaje de 32 mil millones de parámetros que alcanza un rendimiento de vanguardia en razonamiento médico, al tiempo que proporciona explicaciones transparentes y paso a paso para la toma de decisiones clínicas. Basado en Qwen3 32B, nuestro modelo demuestra que un entrenamiento estratégico puede permitir que modelos de tamaño medio superen a contrapartes significativamente más grandes en dominios especializados. Desarrollamos una novedosa canalización de entrenamiento en dos etapas: primero, un ajuste fino supervisado sobre un conjunto de datos cuidadosamente seleccionado de 107,033 ejemplos sintéticos de razonamiento médico que enseña pensamiento clínico estructurado, mejorado mediante técnicas avanzadas de eficiencia de parámetros, incluyendo Adaptación de Bajo Rango con Descomposición de Pesos (DoRA) y LoRA con Estabilización de Rango (rsLoRA); segundo, aprendizaje por refuerzo utilizando Optimización de Política Relativa de Grupo (GRPO) con un sofisticado sistema de recompensas multicomponente que refina la precisión, el cumplimiento del formato y la calidad del razonamiento. Gazal-R1 logra un rendimiento excepcional en benchmarks médicos, obteniendo un 87.1% en MedQA, un 81.6% en MMLU Pro (Médico) y un 79.6% en PubMedQA, superando a modelos hasta 12 veces más grandes. Más allá de sus sólidos resultados empíricos, este trabajo proporciona una visión detallada de los desafíos de entrenar modelos con capacidad de razonamiento en dominios especializados, incluyendo problemas con el hackeo de recompensas, la inestabilidad del entrenamiento y la tensión fundamental entre el recuerdo factual y el razonamiento detallado. Nuestra metodología ofrece un marco reproducible para desarrollar modelos de lenguaje de alta capacidad y específicos de dominio que equilibran rendimiento, eficiencia y explicabilidad.
English
We present Gazal-R1, a 32-billion-parameter language model that achieves
state-of-the-art performance in medical reasoning while providing transparent,
step-by-step explanations for clinical decision-making. Built upon Qwen3 32B,
our model demonstrates that strategic training can enable mid-sized models to
outperform significantly larger counterparts in specialized domains. We
developed a novel two-stage training pipeline: first, supervised fine-tuning on
a carefully curated dataset of 107,033 synthetic medical reasoning examples
that teaches structured clinical thinking, enhanced by advanced
parameter-efficient techniques including Weight-Decomposed Low-Rank Adaptation
(DoRA) and Rank-Stabilized LoRA (rsLoRA); second, reinforcement learning using
Group Relative Policy Optimization (GRPO) with a sophisticated multi-component
reward system that refines accuracy, format adherence, and reasoning quality.
Gazal-R1 achieves exceptional performance across medical benchmarks, scoring
87.1% on MedQA, 81.6% on MMLU Pro (Medical), and 79.6% on PubMedQA, surpassing
models up to 12x larger. Beyond its strong empirical results, this work
provides detailed insights into the challenges of training reasoning-capable
models in specialized domains, including issues with reward hacking, training
instability, and the fundamental tension between factual recall and detailed
reasoning. Our methodology offers a reproducible framework for developing
high-capability, domain-specific language models that balance performance,
efficiency, and explainability.