Elicitazione del Ragionamento Medico mediante Sintesi di Dati Arricchiti con Conoscenza: Un Approccio di Apprendimento per Rinforzo Semi-Supervisionato

Abstract

Sebbene i grandi modelli linguistici siano promettenti per applicazioni mediche complesse, il loro sviluppo è ostacolato dalla scarsità di dati di ragionamento di alta qualità. Per affrontare questo problema, gli approcci esistenti tipicamente distillano tracce di ragionamento a catena (chain-of-thought) da grandi modelli proprietari tramite fine-tuning supervisionato, per poi condurre apprendimento per rinforzo (RL). Questi metodi mostrano miglioramenti limitati in domini sottorappresentati come le malattie rare, comportando al contempo costi sostanziali per la generazione di catene di ragionamento complesse. Per potenziare efficientemente il ragionamento medico, proponiamo MedSSR, un framework di Sintesi dei dati arricchita con conoscenze mediche e Apprendimento per Rinforzo Semi-supervisionato. Il nostro framework utilizza prima le conoscenze sulle malattie rare per sintetizzare domande di ragionamento a distribuzione controllabile. Successivamente, impiega il modello policy stesso per generare pseudo-etichette di alta qualità. Ciò abilita un paradigma di addestramento a due stadi, intrinseco-estrinseco: RL auto-supervisionato sui dati sintetici con pseudo-etichette, seguito da RL supervisionato sui dati reali annotati da umani. MedSSR scala efficientemente l'addestramento del modello senza fare affidamento sulla costosa distillazione di tracce. Esperimenti estensivi su Qwen e Llama dimostrano che il nostro metodo supera quelli esistenti su dieci benchmark medici, raggiungendo un guadagno fino al +5,93% sui compiti relativi alle malattie rare. Il nostro codice è disponibile all'indirizzo https://github.com/tdlhl/MedSSR.

English

While large language models hold promise for complex medical applications, their development is hindered by the scarcity of high-quality reasoning data. To address this issue, existing approaches typically distill chain-of-thought reasoning traces from large proprietary models via supervised fine-tuning, then conduct reinforcement learning (RL). These methods exhibit limited improvement on underrepresented domains like rare diseases while incurring substantial costs from generating complex reasoning chains. To efficiently enhance medical reasoning, we propose MedSSR, a Medical Knowledge-enhanced data Synthesis and Semi-supervised Reinforcement learning framework. Our framework first employs rare disease knowledge to synthesize distribution-controllable reasoning questions. We then utilize the policy model itself to generate high-quality pseudo-labels. This enables a two-stage, intrinsic-to-extrinsic training paradigm: self-supervised RL on the pseudo-labeled synthetic data, followed by supervised RL on the human-annotated real data. MedSSR scales model training efficiently without relying on costly trace distillation. Extensive experiments on Qwen and Llama demonstrate that our method outperforms existing methods across ten medical benchmarks, achieving up to +5.93% gain on rare-disease tasks. Our code is available at https://github.com/tdlhl/MedSSR.

Elicitazione del Ragionamento Medico mediante Sintesi di Dati Arricchiti con Conoscenza: Un Approccio di Apprendimento per Rinforzo Semi-Supervisionato

Eliciting Medical Reasoning with Knowledge-enhanced Data Synthesis: A Semi-Supervised Reinforcement Learning Approach

Abstract

Support