Voorbij Destillatie: De Grenzen van Medisch LLM Redeneren Verleggen met Minimalistische Regelgebaseerde RL
Beyond Distillation: Pushing the Limits of Medical LLM Reasoning with Minimalist Rule-Based RL
May 23, 2025
Auteurs: Che Liu, Haozhe Wang, Jiazhen Pan, Zhongwei Wan, Yong Dai, Fangzhen Lin, Wenjia Bai, Daniel Rueckert, Rossella Arcucci
cs.AI
Samenvatting
Het verbeteren van prestaties op complexe taken en het mogelijk maken van interpreteerbare besluitvorming in grote taalmodellen (LLMs), met name voor klinische toepassingen, vereist effectief redeneervermogen. Dit blijft echter een uitdaging zonder supervised fine-tuning (SFT) op kostbare chain-of-thought (CoT) data die is gedistilleerd uit gesloten bronmodellen (bijv. GPT-4o). In dit werk presenteren we AlphaMed, het eerste medische LLM dat aantoont dat redeneervermogen puur kan ontstaan door reinforcement learning (RL), met behulp van minimalistische regelgebaseerde beloningen op openbare multiple-choice QA-datasets, zonder te vertrouwen op SFT of gedistilleerde CoT-data. AlphaMed behaalt state-of-the-art resultaten op zes medische QA-benchmarks en overtreft modellen die zijn getraind met conventionele SFT+RL-pipelines. Op uitdagende benchmarks (bijv. MedXpert) overtreft AlphaMed zelfs grotere of gesloten bronmodellen zoals DeepSeek-V3-671B en Claude-3.5-Sonnet. Om de factoren achter dit succes te begrijpen, voeren we een uitgebreide data-gecentreerde analyse uit, geleid door drie vragen: (i) Kan minimalistische regelgebaseerde RL redeneren stimuleren zonder gedistilleerde CoT-supervisie? (ii) Hoe beïnvloeden datasetkwantiteit en -diversiteit het redeneervermogen? (iii) Hoe vormt vraagmoeilijkheid het ontstaan en de generalisatie van redeneervermogen? Onze bevindingen tonen aan dat de informatieve waarde van de dataset een cruciale drijver is van redeneerprestaties, en dat minimalistische RL op informatieve multiple-choice QA-data effectief is in het induceren van redeneervermogen zonder CoT-supervisie. We observeren ook uiteenlopende trends tussen benchmarks, wat de beperkingen in de huidige evaluatie benadrukt en de noodzaak voor meer uitdagende, op redeneren gerichte medische QA-benchmarks onderstreept.
English
Improving performance on complex tasks and enabling interpretable decision
making in large language models (LLMs), especially for clinical applications,
requires effective reasoning. Yet this remains challenging without supervised
fine-tuning (SFT) on costly chain-of-thought (CoT) data distilled from
closed-source models (e.g., GPT-4o). In this work, we present AlphaMed, the
first medical LLM to show that reasoning capability can emerge purely through
reinforcement learning (RL), using minimalist rule-based rewards on public
multiple-choice QA datasets, without relying on SFT or distilled CoT data.
AlphaMed achieves state-of-the-art results on six medical QA benchmarks,
outperforming models trained with conventional SFT+RL pipelines. On challenging
benchmarks (e.g., MedXpert), AlphaMed even surpasses larger or closed-source
models such as DeepSeek-V3-671B and Claude-3.5-Sonnet. To understand the
factors behind this success, we conduct a comprehensive data-centric analysis
guided by three questions: (i) Can minimalist rule-based RL incentivize
reasoning without distilled CoT supervision? (ii) How do dataset quantity and
diversity impact reasoning? (iii) How does question difficulty shape the
emergence and generalization of reasoning? Our findings show that dataset
informativeness is a key driver of reasoning performance, and that minimalist
RL on informative, multiple-choice QA data is effective at inducing reasoning
without CoT supervision. We also observe divergent trends across benchmarks,
underscoring limitations in current evaluation and the need for more
challenging, reasoning-oriented medical QA benchmarks.