Élicitation du raisonnement médical par une synthèse de données enrichie de connaissances : une approche d'apprentissage par renforcement semi-supervisé

Résumé

Bien que les grands modèles de langage présentent un potentiel pour les applications médicales complexes, leur développement est freiné par la rareté des données de raisonnement de haute qualité. Pour résoudre ce problème, les approches existantes distillent généralement des traces de raisonnement en chaîne à partir de grands modèles propriétaires via un fine-tuning supervisé, puis mettent en œuvre un apprentissage par renforcement (RL). Ces méthodes montrent une amélioration limitée dans les domaines sous-représentés comme les maladies rares, tout en entraînant des coûts substantiels liés à la génération de chaînes de raisonnement complexes. Pour améliorer efficacement le raisonnement médical, nous proposons MedSSR, un cadre de Synthèse de données améliorée par les Connaissances Médicales et d'Apprentissage par Renforcement Semi-Supervisé. Notre cadre utilise d'abord les connaissances sur les maladies rares pour synthétiser des questions de raisonnement à distribution contrôlable. Nous utilisons ensuite le modèle de politique lui-même pour générer des pseudo-labels de haute qualité. Cela permet un paradigme d'entraînement en deux étapes, de l'intrinsèque à l'extrinsèque : un RL auto-supervisé sur les données synthétiques pseudo-labellisées, suivi d'un RL supervisé sur les données réelles annotées manuellement. MedSSR permet une mise à l'échelle efficace de l'entraînement des modèles sans dépendre d'une distillation de traces coûteuse. Des expériences approfondies sur Qwen et Llama démontrent que notre méthode surpasse les approches existantes sur dix benchmarks médicaux, atteignant un gain allant jusqu'à +5,93 % sur les tâches liées aux maladies rares. Notre code est disponible à l'adresse https://github.com/tdlhl/MedSSR.

English

While large language models hold promise for complex medical applications, their development is hindered by the scarcity of high-quality reasoning data. To address this issue, existing approaches typically distill chain-of-thought reasoning traces from large proprietary models via supervised fine-tuning, then conduct reinforcement learning (RL). These methods exhibit limited improvement on underrepresented domains like rare diseases while incurring substantial costs from generating complex reasoning chains. To efficiently enhance medical reasoning, we propose MedSSR, a Medical Knowledge-enhanced data Synthesis and Semi-supervised Reinforcement learning framework. Our framework first employs rare disease knowledge to synthesize distribution-controllable reasoning questions. We then utilize the policy model itself to generate high-quality pseudo-labels. This enables a two-stage, intrinsic-to-extrinsic training paradigm: self-supervised RL on the pseudo-labeled synthetic data, followed by supervised RL on the human-annotated real data. MedSSR scales model training efficiently without relying on costly trace distillation. Extensive experiments on Qwen and Llama demonstrate that our method outperforms existing methods across ten medical benchmarks, achieving up to +5.93% gain on rare-disease tasks. Our code is available at https://github.com/tdlhl/MedSSR.

Élicitation du raisonnement médical par une synthèse de données enrichie de connaissances : une approche d'apprentissage par renforcement semi-supervisé

Eliciting Medical Reasoning with Knowledge-enhanced Data Synthesis: A Semi-Supervised Reinforcement Learning Approach

Résumé

Support