Gazal-R1: Lograr un razonamiento médico de vanguardia con un entrenamiento eficiente en parámetros en dos etapas

Resumen

Presentamos Gazal-R1, un modelo de lenguaje de 32 mil millones de parámetros que alcanza un rendimiento de vanguardia en razonamiento médico, al tiempo que proporciona explicaciones transparentes y paso a paso para la toma de decisiones clínicas. Basado en Qwen3 32B, nuestro modelo demuestra que un entrenamiento estratégico puede permitir que modelos de tamaño medio superen a contrapartes significativamente más grandes en dominios especializados. Desarrollamos una novedosa canalización de entrenamiento en dos etapas: primero, un ajuste fino supervisado sobre un conjunto de datos cuidadosamente seleccionado de 107,033 ejemplos sintéticos de razonamiento médico que enseña pensamiento clínico estructurado, mejorado mediante técnicas avanzadas de eficiencia de parámetros, incluyendo Adaptación de Bajo Rango con Descomposición de Pesos (DoRA) y LoRA con Estabilización de Rango (rsLoRA); segundo, aprendizaje por refuerzo utilizando Optimización de Política Relativa de Grupo (GRPO) con un sofisticado sistema de recompensas multicomponente que refina la precisión, el cumplimiento del formato y la calidad del razonamiento. Gazal-R1 logra un rendimiento excepcional en benchmarks médicos, obteniendo un 87.1% en MedQA, un 81.6% en MMLU Pro (Médico) y un 79.6% en PubMedQA, superando a modelos hasta 12 veces más grandes. Más allá de sus sólidos resultados empíricos, este trabajo proporciona una visión detallada de los desafíos de entrenar modelos con capacidad de razonamiento en dominios especializados, incluyendo problemas con el hackeo de recompensas, la inestabilidad del entrenamiento y la tensión fundamental entre el recuerdo factual y el razonamiento detallado. Nuestra metodología ofrece un marco reproducible para desarrollar modelos de lenguaje de alta capacidad y específicos de dominio que equilibran rendimiento, eficiencia y explicabilidad.

English

We present Gazal-R1, a 32-billion-parameter language model that achieves state-of-the-art performance in medical reasoning while providing transparent, step-by-step explanations for clinical decision-making. Built upon Qwen3 32B, our model demonstrates that strategic training can enable mid-sized models to outperform significantly larger counterparts in specialized domains. We developed a novel two-stage training pipeline: first, supervised fine-tuning on a carefully curated dataset of 107,033 synthetic medical reasoning examples that teaches structured clinical thinking, enhanced by advanced parameter-efficient techniques including Weight-Decomposed Low-Rank Adaptation (DoRA) and Rank-Stabilized LoRA (rsLoRA); second, reinforcement learning using Group Relative Policy Optimization (GRPO) with a sophisticated multi-component reward system that refines accuracy, format adherence, and reasoning quality. Gazal-R1 achieves exceptional performance across medical benchmarks, scoring 87.1% on MedQA, 81.6% on MMLU Pro (Medical), and 79.6% on PubMedQA, surpassing models up to 12x larger. Beyond its strong empirical results, this work provides detailed insights into the challenges of training reasoning-capable models in specialized domains, including issues with reward hacking, training instability, and the fundamental tension between factual recall and detailed reasoning. Our methodology offers a reproducible framework for developing high-capability, domain-specific language models that balance performance, efficiency, and explainability.

Gazal-R1: Lograr un razonamiento médico de vanguardia con un entrenamiento eficiente en parámetros en dos etapas

Gazal-R1: Achieving State-of-the-Art Medical Reasoning with Parameter-Efficient Two-Stage Training

Resumen

Support