За пределами дистилляции: расширение границ рассуждений медицинских языковых моделей с минималистичным правил-ориентированным обучением с подкреплением
Beyond Distillation: Pushing the Limits of Medical LLM Reasoning with Minimalist Rule-Based RL
May 23, 2025
Авторы: Che Liu, Haozhe Wang, Jiazhen Pan, Zhongwei Wan, Yong Dai, Fangzhen Lin, Wenjia Bai, Daniel Rueckert, Rossella Arcucci
cs.AI
Аннотация
Повышение производительности на сложных задачах и обеспечение интерпретируемости принятия решений в больших языковых моделях (LLM), особенно для клинических приложений, требует эффективного рассуждения. Однако это остается сложной задачей без контролируемого тонкого настройки (SFT) на дорогостоящих данных цепочки рассуждений (CoT), извлеченных из закрытых моделей (например, GPT-4o). В данной работе мы представляем AlphaMed — первую медицинскую LLM, которая демонстрирует, что способность к рассуждению может возникать исключительно благодаря обучению с подкреплением (RL), с использованием минималистичных правил на основе наград на публичных наборах данных с множественным выбором (QA), без необходимости в SFT или данных CoT. AlphaMed достигает наилучших результатов на шести медицинских QA-бенчмарках, превосходя модели, обученные с использованием традиционных подходов SFT+RL. На сложных бенчмарках (например, MedXpert) AlphaMed даже превосходит более крупные или закрытые модели, такие как DeepSeek-V3-671B и Claude-3.5-Sonnet. Чтобы понять факторы, стоящие за этим успехом, мы проводим всесторонний анализ, ориентированный на данные, руководствуясь тремя вопросами: (i) Могут ли минималистичные правила на основе RL стимулировать рассуждения без надзора CoT? (ii) Как количество и разнообразие данных влияют на рассуждения? (iii) Как сложность вопросов формирует возникновение и обобщение рассуждений? Наши результаты показывают, что информативность данных является ключевым фактором производительности рассуждений, а минималистичный RL на информативных данных с множественным выбором эффективно стимулирует рассуждения без надзора CoT. Мы также наблюдаем расходящиеся тенденции на разных бенчмарках, что подчеркивает ограничения текущей оценки и необходимость в более сложных, ориентированных на рассуждения медицинских QA-бенчмарках.
English
Improving performance on complex tasks and enabling interpretable decision
making in large language models (LLMs), especially for clinical applications,
requires effective reasoning. Yet this remains challenging without supervised
fine-tuning (SFT) on costly chain-of-thought (CoT) data distilled from
closed-source models (e.g., GPT-4o). In this work, we present AlphaMed, the
first medical LLM to show that reasoning capability can emerge purely through
reinforcement learning (RL), using minimalist rule-based rewards on public
multiple-choice QA datasets, without relying on SFT or distilled CoT data.
AlphaMed achieves state-of-the-art results on six medical QA benchmarks,
outperforming models trained with conventional SFT+RL pipelines. On challenging
benchmarks (e.g., MedXpert), AlphaMed even surpasses larger or closed-source
models such as DeepSeek-V3-671B and Claude-3.5-Sonnet. To understand the
factors behind this success, we conduct a comprehensive data-centric analysis
guided by three questions: (i) Can minimalist rule-based RL incentivize
reasoning without distilled CoT supervision? (ii) How do dataset quantity and
diversity impact reasoning? (iii) How does question difficulty shape the
emergence and generalization of reasoning? Our findings show that dataset
informativeness is a key driver of reasoning performance, and that minimalist
RL on informative, multiple-choice QA data is effective at inducing reasoning
without CoT supervision. We also observe divergent trends across benchmarks,
underscoring limitations in current evaluation and the need for more
challenging, reasoning-oriented medical QA benchmarks.Summary
AI-Generated Summary