ChatPaper.aiChatPaper

知識強化型データ合成による医療推論の誘導:半教師付き強化学習アプローチ

Eliciting Medical Reasoning with Knowledge-enhanced Data Synthesis: A Semi-Supervised Reinforcement Learning Approach

April 13, 2026
著者: Haolin Li, Shuyang Jiang, Ruipeng Zhang, Jiangchao Yao, Ya Zhang, Yanfeng Wang
cs.AI

要旨

大規模言語モデルは複雑な医療応用への可能性を秘めているが、その開発は高品質な推論データの不足によって妨げられている。この課題に対処するため、既存のアプローチでは通常、大規模なプロプライエタリモデルから連鎖思考(chain-of-thought)推論トレースを教師ありファインチューニングによって抽出し、その後強化学習(RL)を実施する。これらの手法は、希少疾患のような低頻度領域での改善が限定的である一方、複雑な推論連鎖の生成に伴う多大なコストがかかる。医療推論を効率的に強化するため、我々はMedSSR(Medical Knowledge-enhanced data Synthesis and Semi-supervised Reinforcement learning framework)を提案する。本フレームワークはまず、希少疾患の知識を利用して分布制御可能な推論問題を合成する。次に、ポリシーモデル自体を用いて高品質な擬似ラベルを生成する。これにより、擬似ラベル付き合成データによる自己教師あり強化学習と、人手注釈された実データによる教師あり強化学習から構成される、内から外への2段階トレーニングパラダイムを実現する。MedSSRは、高コストな推論トレース抽出に依存することなく、モデルトレーニングを効率的にスケーリングする。QwenおよびLlamaを用いた大規模な実験により、本手法が10の医療ベンチマークにおいて既存手法を凌駕し、希少疾患タスクでは最大+5.93%の性能向上を達成することを実証した。コードはhttps://github.com/tdlhl/MedSSR で公開している。
English
While large language models hold promise for complex medical applications, their development is hindered by the scarcity of high-quality reasoning data. To address this issue, existing approaches typically distill chain-of-thought reasoning traces from large proprietary models via supervised fine-tuning, then conduct reinforcement learning (RL). These methods exhibit limited improvement on underrepresented domains like rare diseases while incurring substantial costs from generating complex reasoning chains. To efficiently enhance medical reasoning, we propose MedSSR, a Medical Knowledge-enhanced data Synthesis and Semi-supervised Reinforcement learning framework. Our framework first employs rare disease knowledge to synthesize distribution-controllable reasoning questions. We then utilize the policy model itself to generate high-quality pseudo-labels. This enables a two-stage, intrinsic-to-extrinsic training paradigm: self-supervised RL on the pseudo-labeled synthetic data, followed by supervised RL on the human-annotated real data. MedSSR scales model training efficiently without relying on costly trace distillation. Extensive experiments on Qwen and Llama demonstrate that our method outperforms existing methods across ten medical benchmarks, achieving up to +5.93% gain on rare-disease tasks. Our code is available at https://github.com/tdlhl/MedSSR.
PDF41April 15, 2026