ChatPaper.aiChatPaper

Oltre la distillazione: Spingere i limiti del ragionamento dei LLM medici con un approccio RL basato su regole minimaliste

Beyond Distillation: Pushing the Limits of Medical LLM Reasoning with Minimalist Rule-Based RL

May 23, 2025
Autori: Che Liu, Haozhe Wang, Jiazhen Pan, Zhongwei Wan, Yong Dai, Fangzhen Lin, Wenjia Bai, Daniel Rueckert, Rossella Arcucci
cs.AI

Abstract

Migliorare le prestazioni su compiti complessi e abilitare decisioni interpretabili nei grandi modelli linguistici (LLM), specialmente per applicazioni cliniche, richiede un ragionamento efficace. Tuttavia, ciò rimane una sfida senza un fine-tuning supervisionato (SFT) su costosi dati di catena di pensiero (CoT) distillati da modelli closed-source (ad esempio, GPT-4o). In questo lavoro, presentiamo AlphaMed, il primo LLM medico a dimostrare che la capacità di ragionamento può emergere esclusivamente attraverso l'apprendimento per rinforzo (RL), utilizzando ricompense minimaliste basate su regole su dataset pubblici di domande a scelta multipla, senza fare affidamento su SFT o dati CoT distillati. AlphaMed raggiunge risultati all'avanguardia su sei benchmark di domande mediche, superando i modelli addestrati con pipeline convenzionali SFT+RL. Su benchmark impegnativi (ad esempio, MedXpert), AlphaMed supera persino modelli più grandi o closed-source come DeepSeek-V3-671B e Claude-3.5-Sonnet. Per comprendere i fattori alla base di questo successo, conduciamo un'analisi completa centrata sui dati guidata da tre domande: (i) L'RL minimalista basato su regole può incentivare il ragionamento senza supervisione CoT distillata? (ii) In che modo quantità e diversità del dataset influenzano il ragionamento? (iii) In che modo la difficoltà delle domande modella l'emergere e la generalizzazione del ragionamento? I nostri risultati mostrano che l'informatività del dataset è un fattore chiave per le prestazioni di ragionamento e che l'RL minimalista su dati informativi di domande a scelta multipla è efficace nell'indurre il ragionamento senza supervisione CoT. Osserviamo anche tendenze divergenti tra i benchmark, evidenziando limitazioni nelle valutazioni attuali e la necessità di benchmark più impegnativi e orientati al ragionamento per domande mediche.
English
Improving performance on complex tasks and enabling interpretable decision making in large language models (LLMs), especially for clinical applications, requires effective reasoning. Yet this remains challenging without supervised fine-tuning (SFT) on costly chain-of-thought (CoT) data distilled from closed-source models (e.g., GPT-4o). In this work, we present AlphaMed, the first medical LLM to show that reasoning capability can emerge purely through reinforcement learning (RL), using minimalist rule-based rewards on public multiple-choice QA datasets, without relying on SFT or distilled CoT data. AlphaMed achieves state-of-the-art results on six medical QA benchmarks, outperforming models trained with conventional SFT+RL pipelines. On challenging benchmarks (e.g., MedXpert), AlphaMed even surpasses larger or closed-source models such as DeepSeek-V3-671B and Claude-3.5-Sonnet. To understand the factors behind this success, we conduct a comprehensive data-centric analysis guided by three questions: (i) Can minimalist rule-based RL incentivize reasoning without distilled CoT supervision? (ii) How do dataset quantity and diversity impact reasoning? (iii) How does question difficulty shape the emergence and generalization of reasoning? Our findings show that dataset informativeness is a key driver of reasoning performance, and that minimalist RL on informative, multiple-choice QA data is effective at inducing reasoning without CoT supervision. We also observe divergent trends across benchmarks, underscoring limitations in current evaluation and the need for more challenging, reasoning-oriented medical QA benchmarks.
PDF202May 28, 2025