Jenseits der Destillation: Die Grenzen des medizinischen LLM-Denkens mit minimalistischer regelbasierter RL erweitern
Beyond Distillation: Pushing the Limits of Medical LLM Reasoning with Minimalist Rule-Based RL
May 23, 2025
papers.authors: Che Liu, Haozhe Wang, Jiazhen Pan, Zhongwei Wan, Yong Dai, Fangzhen Lin, Wenjia Bai, Daniel Rueckert, Rossella Arcucci
cs.AI
papers.abstract
Die Verbesserung der Leistung bei komplexen Aufgaben und die Ermöglichung interpretierbarer Entscheidungsfindung in großen Sprachmodellen (LLMs), insbesondere für klinische Anwendungen, erfordern effektives logisches Denken. Dies bleibt jedoch eine Herausforderung, ohne überwachtes Feinabstimmen (SFT) auf kostspielige Chain-of-Thought (CoT)-Daten, die aus geschlossenen Modellen (z. B. GPT-4o) destilliert wurden. In dieser Arbeit präsentieren wir AlphaMed, das erste medizinische LLM, das zeigt, dass logisches Denken rein durch Reinforcement Learning (RL) entstehen kann, indem minimalistische regelbasierte Belohnungen auf öffentlichen Multiple-Choice-QA-Datensätzen verwendet werden, ohne auf SFT oder destillierte CoT-Daten angewiesen zu sein. AlphaMed erzielt Spitzenergebnisse auf sechs medizinischen QA-Benchmarks und übertrifft Modelle, die mit konventionellen SFT+RL-Pipelines trainiert wurden. Auf anspruchsvollen Benchmarks (z. B. MedXpert) übertrifft AlphaMed sogar größere oder geschlossene Modelle wie DeepSeek-V3-671B und Claude-3.5-Sonnet. Um die Faktoren hinter diesem Erfolg zu verstehen, führen wir eine umfassende datenzentrierte Analyse durch, die von drei Fragen geleitet wird: (i) Kann minimalistisches regelbasiertes RL logisches Denken ohne destillierte CoT-Aufsicht fördern? (ii) Wie beeinflussen Menge und Vielfalt der Datensätze das logische Denken? (iii) Wie beeinflusst die Schwierigkeit der Fragen die Entstehung und Generalisierung des logischen Denkens? Unsere Ergebnisse zeigen, dass die Informativität der Datensätze ein Schlüsselfaktor für die Leistung des logischen Denkens ist und dass minimalistisches RL auf informativen Multiple-Choice-QA-Daten effektiv logisches Denken ohne CoT-Aufsicht induzieren kann. Wir beobachten auch unterschiedliche Trends über Benchmarks hinweg, was die Grenzen der aktuellen Bewertung und die Notwendigkeit für anspruchsvollere, auf logisches Denken ausgerichtete medizinische QA-Benchmarks unterstreicht.
English
Improving performance on complex tasks and enabling interpretable decision
making in large language models (LLMs), especially for clinical applications,
requires effective reasoning. Yet this remains challenging without supervised
fine-tuning (SFT) on costly chain-of-thought (CoT) data distilled from
closed-source models (e.g., GPT-4o). In this work, we present AlphaMed, the
first medical LLM to show that reasoning capability can emerge purely through
reinforcement learning (RL), using minimalist rule-based rewards on public
multiple-choice QA datasets, without relying on SFT or distilled CoT data.
AlphaMed achieves state-of-the-art results on six medical QA benchmarks,
outperforming models trained with conventional SFT+RL pipelines. On challenging
benchmarks (e.g., MedXpert), AlphaMed even surpasses larger or closed-source
models such as DeepSeek-V3-671B and Claude-3.5-Sonnet. To understand the
factors behind this success, we conduct a comprehensive data-centric analysis
guided by three questions: (i) Can minimalist rule-based RL incentivize
reasoning without distilled CoT supervision? (ii) How do dataset quantity and
diversity impact reasoning? (iii) How does question difficulty shape the
emergence and generalization of reasoning? Our findings show that dataset
informativeness is a key driver of reasoning performance, and that minimalist
RL on informative, multiple-choice QA data is effective at inducing reasoning
without CoT supervision. We also observe divergent trends across benchmarks,
underscoring limitations in current evaluation and the need for more
challenging, reasoning-oriented medical QA benchmarks.