Het Uitlokken van Medisch Redeneren met Kennis-verbeterde Datasynthese: Een Semi-gesuperviseerde Reinforcement Learning Benadering

Samenvatting

Hoewel grote taalmodelen veelbelovend zijn voor complexe medische toepassingen, wordt hun ontwikkeling belemmerd door een tekort aan hoogwaardige redeneergegevens. Om dit probleem aan te pakken, distilleren bestaande methoden typisch chain-of-thought-redeneersporen uit grote propriëtaire modellen via supervised fine-tuning, gevolgd door reinforcement learning (RL). Deze methoden vertonen beperkte verbetering op ondervertegenwoordigde domeinen zoals zeldzame ziekten, terwijl ze aanzienlijke kosten met zich meebrengen voor het genereren van complexe redeneerketens. Om medisch redeneren efficiënt te verbeteren, stellen wij MedSSR voor, een raamwerk voor Medical Knowledge-enhanced data Synthesis en Semi-supervised Reinforcement Learning. Ons raamwerk gebruikt eerst kennis over zeldzame ziekten om distributie-beheerbare redeneervragen te synthetiseren. Vervolgens gebruiken we het policy-model zelf om hoogwaardige pseudo-labels te genereren. Dit maakt een tweefasig, intrinsiek-extrinsiek trainingsparadigma mogelijk: zelf-gesuperviseerde RL op de pseudo-gelabelde synthetische data, gevolgd door gesuperviseerde RL op de door mensen geannoteerde echte data. MedSSR schaalt modeltraining efficiënt zonder afhankelijk te zijn van kostbare sporendistillatie. Uitgebreide experimenten met Qwen en Llama tonen aan dat onze methode superieur presteert ten opzichte van bestaande methoden op tien medische benchmarks, met een winst tot +5,93% op taken rond zeldzame ziekten. Onze code is beschikbaar op https://github.com/tdlhl/MedSSR.

English

While large language models hold promise for complex medical applications, their development is hindered by the scarcity of high-quality reasoning data. To address this issue, existing approaches typically distill chain-of-thought reasoning traces from large proprietary models via supervised fine-tuning, then conduct reinforcement learning (RL). These methods exhibit limited improvement on underrepresented domains like rare diseases while incurring substantial costs from generating complex reasoning chains. To efficiently enhance medical reasoning, we propose MedSSR, a Medical Knowledge-enhanced data Synthesis and Semi-supervised Reinforcement learning framework. Our framework first employs rare disease knowledge to synthesize distribution-controllable reasoning questions. We then utilize the policy model itself to generate high-quality pseudo-labels. This enables a two-stage, intrinsic-to-extrinsic training paradigm: self-supervised RL on the pseudo-labeled synthetic data, followed by supervised RL on the human-annotated real data. MedSSR scales model training efficiently without relying on costly trace distillation. Extensive experiments on Qwen and Llama demonstrate that our method outperforms existing methods across ten medical benchmarks, achieving up to +5.93% gain on rare-disease tasks. Our code is available at https://github.com/tdlhl/MedSSR.

Het Uitlokken van Medisch Redeneren met Kennis-verbeterde Datasynthese: Een Semi-gesuperviseerde Reinforcement Learning Benadering

Eliciting Medical Reasoning with Knowledge-enhanced Data Synthesis: A Semi-Supervised Reinforcement Learning Approach

Samenvatting

Support