Выявление медицинских рассуждений с помощью синтеза данных, обогащенных знаниями: полуавтоматический подход на основе обучения с подкреплением

Аннотация

Хотя большие языковые модели открывают перспективы для сложных медицинских применений, их разработка сдерживается нехваткой высококачественных данных для рассуждений. Для решения этой проблемы существующие подходы обычно используют дистилляцию трасс логических цепочек из больших проприетарных моделей посредством обучения с учителем, а затем проводят обучение с подкреплением (RL). Эти методы демонстрируют ограниченное улучшение в слабо представленных областях, таких как редкие заболевания, и при этом требуют значительных затрат на генерацию сложных цепочек рассуждений. Для эффективного улучшения медицинских рассуждений мы предлагаем MedSSR — фреймворк синтеза данных, усиленного медицинскими знаниями, и полуавтоматического обучения с подкреплением. Наш фреймворк сначала использует знания о редких заболеваниях для синтеза вопросов на рассуждение с контролируемым распределением. Затем мы используем саму политическую модель для генерации высококачественных псевдо-меток. Это позволяет реализовать двухэтапную парадигму обучения от внутреннего к внешнему: самообучение с подкреплением на синтетических данных с псевдо-метками, за которым следует обучение с учителем и подкреплением на реальных данных с человеческими аннотациями. MedSSR эффективно масштабирует обучение моделей без reliance на дорогостоящую дистилляцию трасс. Многочисленные эксперименты на Qwen и Llama показывают, что наш метод превосходит существующие подходы на десяти медицинских бенчмарках, достигая прироста до +5,93% в задачах по редким заболеваниям. Наш код доступен по адресу https://github.com/tdlhl/MedSSR.

English

While large language models hold promise for complex medical applications, their development is hindered by the scarcity of high-quality reasoning data. To address this issue, existing approaches typically distill chain-of-thought reasoning traces from large proprietary models via supervised fine-tuning, then conduct reinforcement learning (RL). These methods exhibit limited improvement on underrepresented domains like rare diseases while incurring substantial costs from generating complex reasoning chains. To efficiently enhance medical reasoning, we propose MedSSR, a Medical Knowledge-enhanced data Synthesis and Semi-supervised Reinforcement learning framework. Our framework first employs rare disease knowledge to synthesize distribution-controllable reasoning questions. We then utilize the policy model itself to generate high-quality pseudo-labels. This enables a two-stage, intrinsic-to-extrinsic training paradigm: self-supervised RL on the pseudo-labeled synthetic data, followed by supervised RL on the human-annotated real data. MedSSR scales model training efficiently without relying on costly trace distillation. Extensive experiments on Qwen and Llama demonstrate that our method outperforms existing methods across ten medical benchmarks, achieving up to +5.93% gain on rare-disease tasks. Our code is available at https://github.com/tdlhl/MedSSR.

Выявление медицинских рассуждений с помощью синтеза данных, обогащенных знаниями: полуавтоматический подход на основе обучения с подкреплением

Eliciting Medical Reasoning with Knowledge-enhanced Data Synthesis: A Semi-Supervised Reinforcement Learning Approach

Аннотация

Support