Herausforderung medizinischer Denkprozesse durch wissensgestützte Datensynthese: Ein semi-überwachter Reinforcement-Learning-Ansatz

Zusammenfassung

Obwohl große Sprachmodelle vielversprechend für komplexe medizinische Anwendungen sind, wird ihre Entwicklung durch die Knappheit hochwertiger Reasoning-Daten behindert. Um dieses Problem zu lösen, generieren bestehende Ansätze typischerweise Chain-of-Thought-Reasoning-Traces aus großen proprietären Modellen mittels supervised Fine-Tuning und führen anschließend Reinforcement Learning (RL) durch. Diese Methoden zeigen nur begrenzte Verbesserungen in unterrepräsentierten Domänen wie seltenen Krankheiten und verursachen gleichzeitig erhebliche Kosten durch die Generierung komplexer Reasoning-Ketten. Um medizinisches Reasoning effizient zu verbessern, schlagen wir MedSSR vor, einen Framework für medizinisches Reasoning mit wissensverstärkter Datensynthese und semi-überwachtem Reinforcement Learning. Unser Framework nutzt zunächst Wissen über seltene Krankheiten, um verteilungskontrollierte Reasoning-Fragen zu synthetisieren. Anschließend verwenden wir das Policy-Modell selbst, um hochwertige Pseudo-Labels zu generieren. Dies ermöglicht ein zweistufiges Trainingsparadigma von intrinsisch zu extrinsisch: selbstüberwachtes RL auf den pseudo-gelabelten synthetischen Daten, gefolgt von überwachtem RL auf den menschlich annotierten Real-Daten. MedSSR skaliert das Modelltraining effizient, ohne auf kostspielige Trace-Distillation angewiesen zu sein. Umfangreiche Experimente mit Qwen und Llama zeigen, dass unsere Methode bestehende Ansätze auf zehn medizinischen Benchmarks übertrifft und bei Aufgaben zu seltenen Krankheiten eine Steigerung von bis zu +5,93 % erreicht. Unser Code ist verfügbar unter https://github.com/tdlhl/MedSSR.

English

While large language models hold promise for complex medical applications, their development is hindered by the scarcity of high-quality reasoning data. To address this issue, existing approaches typically distill chain-of-thought reasoning traces from large proprietary models via supervised fine-tuning, then conduct reinforcement learning (RL). These methods exhibit limited improvement on underrepresented domains like rare diseases while incurring substantial costs from generating complex reasoning chains. To efficiently enhance medical reasoning, we propose MedSSR, a Medical Knowledge-enhanced data Synthesis and Semi-supervised Reinforcement learning framework. Our framework first employs rare disease knowledge to synthesize distribution-controllable reasoning questions. We then utilize the policy model itself to generate high-quality pseudo-labels. This enables a two-stage, intrinsic-to-extrinsic training paradigm: self-supervised RL on the pseudo-labeled synthetic data, followed by supervised RL on the human-annotated real data. MedSSR scales model training efficiently without relying on costly trace distillation. Extensive experiments on Qwen and Llama demonstrate that our method outperforms existing methods across ten medical benchmarks, achieving up to +5.93% gain on rare-disease tasks. Our code is available at https://github.com/tdlhl/MedSSR.

Herausforderung medizinischer Denkprozesse durch wissensgestützte Datensynthese: Ein semi-überwachter Reinforcement-Learning-Ansatz

Eliciting Medical Reasoning with Knowledge-enhanced Data Synthesis: A Semi-Supervised Reinforcement Learning Approach

Zusammenfassung

Support