Obtención de Razonamiento Médico mediante Síntesis de Datos Mejorada con Conocimiento: Un Enfoque de Aprendizaje por Refuerzo Semi-supervisado

Resumen

Si bien los grandes modelos de lenguaje muestran potencial para aplicaciones médicas complejas, su desarrollo se ve obstaculizado por la escasez de datos de razonamiento de alta calidad. Para abordar este problema, los enfoques existentes generalmente destilan trazas de razonamiento en cadena a partir de grandes modelos propietarios mediante ajuste fino supervisado, para luego realizar aprendizaje por refuerzo (RL). Estos métodos muestran una mejora limitada en dominios poco representados como las enfermedades raras, a la vez que conllevan costos sustanciales por la generación de cadenas de razonamiento complejas. Para mejorar eficientemente el razonamiento médico, proponemos MedSSR, un marco de Síntesis de datos mejorado con Conocimiento Médico y Aprendizaje por Refuerzo Semi-supervisado. Nuestro marco emplea primero conocimiento sobre enfermedades raras para sintetizar preguntas de razonamiento con distribución controlable. Luego utilizamos el modelo de política en sí mismo para generar pseudoetiquetas de alta calidad. Esto permite un paradigma de entrenamiento intrínseco-a-extrínseco en dos etapas: RL auto-supervisado en los datos sintéticos con pseudoetiquetas, seguido de RL supervisado en los datos reales anotados por humanos. MedSSR escala el entrenamiento del modelo de manera eficiente sin depender de la costosa destilación de trazas. Experimentos exhaustivos con Qwen y Llama demuestran que nuestro método supera a los enfoques existentes en diez benchmarks médicos, logrando una mejora de hasta +5.93% en tareas de enfermedades raras. Nuestro código está disponible en https://github.com/tdlhl/MedSSR.

English

While large language models hold promise for complex medical applications, their development is hindered by the scarcity of high-quality reasoning data. To address this issue, existing approaches typically distill chain-of-thought reasoning traces from large proprietary models via supervised fine-tuning, then conduct reinforcement learning (RL). These methods exhibit limited improvement on underrepresented domains like rare diseases while incurring substantial costs from generating complex reasoning chains. To efficiently enhance medical reasoning, we propose MedSSR, a Medical Knowledge-enhanced data Synthesis and Semi-supervised Reinforcement learning framework. Our framework first employs rare disease knowledge to synthesize distribution-controllable reasoning questions. We then utilize the policy model itself to generate high-quality pseudo-labels. This enables a two-stage, intrinsic-to-extrinsic training paradigm: self-supervised RL on the pseudo-labeled synthetic data, followed by supervised RL on the human-annotated real data. MedSSR scales model training efficiently without relying on costly trace distillation. Extensive experiments on Qwen and Llama demonstrate that our method outperforms existing methods across ten medical benchmarks, achieving up to +5.93% gain on rare-disease tasks. Our code is available at https://github.com/tdlhl/MedSSR.

Obtención de Razonamiento Médico mediante Síntesis de Datos Mejorada con Conocimiento: Un Enfoque de Aprendizaje por Refuerzo Semi-supervisado

Eliciting Medical Reasoning with Knowledge-enhanced Data Synthesis: A Semi-Supervised Reinforcement Learning Approach

Resumen

Support