Elicitação do Raciocínio Médico com Síntese de Dados Aprimorada por Conhecimento: Uma Abordagem de Aprendizado por Reforço Semissupervisionado

Resumo

Embora os grandes modelos de linguagem apresentem potencial para aplicações médicas complexas, seu desenvolvimento é limitado pela escassez de dados de raciocínio de alta qualidade. Para resolver este problema, as abordagens existentes geralmente destilam traços de raciocínio em cadeia de grandes modelos proprietários através de ajuste fino supervisionado, seguido de aprendizado por reforço (RL). Esses métodos apresentam melhorias limitadas em domínios sub-representados, como doenças raras, enquanto incorrem em custos substanciais com a geração de cadeias de raciocínio complexas. Para aprimorar eficientemente o raciocínio médico, propomos o MedSSR, uma estrutura de Síntese de Dados com Conhecimento Médico e Aprendizado por Reforço Semissupervisionado. Nossa estrutura emprega primeiro o conhecimento sobre doenças raras para sintetizar questões de raciocínio com distribuição controlável. Em seguida, utilizamos o próprio modelo de política para gerar pseudo-rótulos de alta qualidade. Isso permite um paradigma de treinamento intrínseco para extrínseco em dois estágios: RL auto-supervisionado nos dados sintéticos com pseudo-rótulos, seguido por RL supervisionado nos dados reais anotados por humanos. O MedSSR dimensiona o treinamento do modelo de forma eficiente, sem depender da custosa destilação de traços. Experimentos extensivos com Qwen e Llama demonstram que nosso método supera as abordagens existentes em dez benchmarks médicos, alcançando um ganho de até +5,93% em tarefas relacionadas a doenças raras. Nosso código está disponível em https://github.com/tdlhl/MedSSR.

English

While large language models hold promise for complex medical applications, their development is hindered by the scarcity of high-quality reasoning data. To address this issue, existing approaches typically distill chain-of-thought reasoning traces from large proprietary models via supervised fine-tuning, then conduct reinforcement learning (RL). These methods exhibit limited improvement on underrepresented domains like rare diseases while incurring substantial costs from generating complex reasoning chains. To efficiently enhance medical reasoning, we propose MedSSR, a Medical Knowledge-enhanced data Synthesis and Semi-supervised Reinforcement learning framework. Our framework first employs rare disease knowledge to synthesize distribution-controllable reasoning questions. We then utilize the policy model itself to generate high-quality pseudo-labels. This enables a two-stage, intrinsic-to-extrinsic training paradigm: self-supervised RL on the pseudo-labeled synthetic data, followed by supervised RL on the human-annotated real data. MedSSR scales model training efficiently without relying on costly trace distillation. Extensive experiments on Qwen and Llama demonstrate that our method outperforms existing methods across ten medical benchmarks, achieving up to +5.93% gain on rare-disease tasks. Our code is available at https://github.com/tdlhl/MedSSR.

Elicitação do Raciocínio Médico com Síntese de Dados Aprimorada por Conhecimento: Uma Abordagem de Aprendizado por Reforço Semissupervisionado

Eliciting Medical Reasoning with Knowledge-enhanced Data Synthesis: A Semi-Supervised Reinforcement Learning Approach

Resumo

Support