지식 강화 데이터 합성을 통한 의료 추론 유도: 준지도 강화학습 접근법
Eliciting Medical Reasoning with Knowledge-enhanced Data Synthesis: A Semi-Supervised Reinforcement Learning Approach
April 13, 2026
저자: Haolin Li, Shuyang Jiang, Ruipeng Zhang, Jiangchao Yao, Ya Zhang, Yanfeng Wang
cs.AI
초록
대규모 언어 모델이 복잡한 의료 응용 분야에서 가능성을 보여주고 있지만, 고품질 추론 데이터의 부족으로 인해 발전이 저해되고 있습니다. 이 문제를 해결하기 위해 기존 접근법은 일반적으로 대형 독점 모델로부터 체인 오브 씽킹 추론 흔적을 지도 미세 조정을 통해 추출한 후 강화 학습을 수행합니다. 이러한 방법들은 희귀 질환과 같이 데이터가 충분히 확보되지 않은 영역에서는 개선 효과가 제한적인 반면, 복잡한 추론 체인 생성으로 인해 상당한 비용이 발생합니다. 의료 추론 능력을 효율적으로 향상시키기 위해 우리는 의학 지식 기반 데이터 합성 및 준지도 강화 학습 프레임워크인 MedSSR을 제안합니다. 우리의 프레임워크는 먼저 희귀 질환 지식을 활용하여 분포 제어가 가능한 추론 질문을 합성합니다. 그런 다음 정책 모델 자체를 이용하여 고품질 의사 레이블을 생성합니다. 이를 통해 내재적에서 외재적 학습으로 이어지는 두 단계 훈련 패러다임이 가능해집니다: 의사 레이블이 지정된 합성 데이터에 대한 자기 지도 강화 학습 이후, 인간이 주석을 단 실제 데이터에 대한 지도 강화 학습을 진행합니다. MedSSR은 고비용의 추론 흔적 추출에 의존하지 않으면서 모델 훈련을 효율적으로 확장합니다. Qwen과 Llama에 대한 광범위한 실험 결과, 우리의 방법이 10개의 의료 벤치마크에서 기존 방법들을 능가하며 희귀 질환 과제에서 최대 +5.93%의 성능 향상을 달성했음을 보여줍니다. 우리의 코드는 https://github.com/tdlhl/MedSSR에서 확인할 수 있습니다.
English
While large language models hold promise for complex medical applications, their development is hindered by the scarcity of high-quality reasoning data. To address this issue, existing approaches typically distill chain-of-thought reasoning traces from large proprietary models via supervised fine-tuning, then conduct reinforcement learning (RL). These methods exhibit limited improvement on underrepresented domains like rare diseases while incurring substantial costs from generating complex reasoning chains. To efficiently enhance medical reasoning, we propose MedSSR, a Medical Knowledge-enhanced data Synthesis and Semi-supervised Reinforcement learning framework. Our framework first employs rare disease knowledge to synthesize distribution-controllable reasoning questions. We then utilize the policy model itself to generate high-quality pseudo-labels. This enables a two-stage, intrinsic-to-extrinsic training paradigm: self-supervised RL on the pseudo-labeled synthetic data, followed by supervised RL on the human-annotated real data. MedSSR scales model training efficiently without relying on costly trace distillation. Extensive experiments on Qwen and Llama demonstrate that our method outperforms existing methods across ten medical benchmarks, achieving up to +5.93% gain on rare-disease tasks. Our code is available at https://github.com/tdlhl/MedSSR.