Au-delà de la distillation : repousser les limites du raisonnement des LLM médicaux avec un apprentissage par renforcement basé sur des règles minimalistes
Beyond Distillation: Pushing the Limits of Medical LLM Reasoning with Minimalist Rule-Based RL
May 23, 2025
Auteurs: Che Liu, Haozhe Wang, Jiazhen Pan, Zhongwei Wan, Yong Dai, Fangzhen Lin, Wenjia Bai, Daniel Rueckert, Rossella Arcucci
cs.AI
Résumé
Améliorer les performances sur des tâches complexes et permettre une prise de décision interprétable dans les grands modèles de langage (LLMs), en particulier pour les applications cliniques, nécessite un raisonnement efficace. Cependant, cela reste difficile sans un ajustement supervisé (SFT) sur des données coûteuses de chaîne de pensée (CoT) distillées à partir de modèles propriétaires (par exemple, GPT-4o). Dans ce travail, nous présentons AlphaMed, le premier LLM médical à démontrer que la capacité de raisonnement peut émerger uniquement par apprentissage par renforcement (RL), en utilisant des récompenses minimalistes basées sur des règles sur des ensembles de données publics de questions à choix multiples (QA), sans recourir à un SFT ou à des données CoT distillées. AlphaMed obtient des résultats de pointe sur six benchmarks de QA médicale, surpassant les modèles entraînés avec des pipelines conventionnels SFT+RL. Sur des benchmarks difficiles (par exemple, MedXpert), AlphaMed dépasse même des modèles plus grands ou propriétaires tels que DeepSeek-V3-671B et Claude-3.5-Sonnet. Pour comprendre les facteurs derrière ce succès, nous menons une analyse centrée sur les données guidée par trois questions : (i) Le RL minimaliste basé sur des règles peut-il inciter au raisonnement sans supervision CoT distillée ? (ii) Comment la quantité et la diversité des ensembles de données influencent-elles le raisonnement ? (iii) Comment la difficulté des questions façonne-t-elle l'émergence et la généralisation du raisonnement ? Nos résultats montrent que l'informativité des ensembles de données est un facteur clé de la performance en raisonnement, et que le RL minimaliste sur des données QA informatives à choix multiples est efficace pour induire un raisonnement sans supervision CoT. Nous observons également des tendances divergentes entre les benchmarks, soulignant les limites de l'évaluation actuelle et la nécessité de benchmarks de QA médicale plus exigeants et orientés vers le raisonnement.
English
Improving performance on complex tasks and enabling interpretable decision
making in large language models (LLMs), especially for clinical applications,
requires effective reasoning. Yet this remains challenging without supervised
fine-tuning (SFT) on costly chain-of-thought (CoT) data distilled from
closed-source models (e.g., GPT-4o). In this work, we present AlphaMed, the
first medical LLM to show that reasoning capability can emerge purely through
reinforcement learning (RL), using minimalist rule-based rewards on public
multiple-choice QA datasets, without relying on SFT or distilled CoT data.
AlphaMed achieves state-of-the-art results on six medical QA benchmarks,
outperforming models trained with conventional SFT+RL pipelines. On challenging
benchmarks (e.g., MedXpert), AlphaMed even surpasses larger or closed-source
models such as DeepSeek-V3-671B and Claude-3.5-Sonnet. To understand the
factors behind this success, we conduct a comprehensive data-centric analysis
guided by three questions: (i) Can minimalist rule-based RL incentivize
reasoning without distilled CoT supervision? (ii) How do dataset quantity and
diversity impact reasoning? (iii) How does question difficulty shape the
emergence and generalization of reasoning? Our findings show that dataset
informativeness is a key driver of reasoning performance, and that minimalist
RL on informative, multiple-choice QA data is effective at inducing reasoning
without CoT supervision. We also observe divergent trends across benchmarks,
underscoring limitations in current evaluation and the need for more
challenging, reasoning-oriented medical QA benchmarks.Summary
AI-Generated Summary