Além da Destilação: Expandindo os Limites do Raciocínio de LLMs Médicos com RL Baseado em Regras Minimalista
Beyond Distillation: Pushing the Limits of Medical LLM Reasoning with Minimalist Rule-Based RL
May 23, 2025
Autores: Che Liu, Haozhe Wang, Jiazhen Pan, Zhongwei Wan, Yong Dai, Fangzhen Lin, Wenjia Bai, Daniel Rueckert, Rossella Arcucci
cs.AI
Resumo
Melhorar o desempenho em tarefas complexas e possibilitar a tomada de decisão interpretável em modelos de linguagem de grande escala (LLMs), especialmente para aplicações clínicas, requer raciocínio eficaz. No entanto, isso continua desafiador sem o ajuste fino supervisionado (SFT) em dados caros de cadeia de pensamento (CoT) destilados de modelos de código fechado (por exemplo, GPT-4o). Neste trabalho, apresentamos o AlphaMed, o primeiro LLM médico a demonstrar que a capacidade de raciocínio pode emergir puramente por meio de aprendizado por reforço (RL), utilizando recompensas minimalistas baseadas em regras em conjuntos de dados públicos de perguntas e respostas de múltipla escolha, sem depender de SFT ou dados de CoT destilados. O AlphaMed alcança resultados de ponta em seis benchmarks de perguntas e respostas médicas, superando modelos treinados com pipelines convencionais de SFT+RL. Em benchmarks desafiadores (por exemplo, MedXpert), o AlphaMed até supera modelos maiores ou de código fechado, como DeepSeek-V3-671B e Claude-3.5-Sonnet. Para entender os fatores por trás desse sucesso, realizamos uma análise abrangente centrada nos dados, guiada por três perguntas: (i) O RL minimalista baseado em regras pode incentivar o raciocínio sem supervisão de CoT destilado? (ii) Como a quantidade e a diversidade dos dados impactam o raciocínio? (iii) Como a dificuldade das perguntas molda a emergência e a generalização do raciocínio? Nossas descobertas mostram que a informatividade dos dados é um fator-chave para o desempenho do raciocínio, e que o RL minimalista em dados informativos de perguntas e respostas de múltipla escolha é eficaz para induzir o raciocínio sem supervisão de CoT. Também observamos tendências divergentes entre os benchmarks, destacando limitações na avaliação atual e a necessidade de benchmarks médicos de perguntas e respostas mais desafiadores e orientados para o raciocínio.
English
Improving performance on complex tasks and enabling interpretable decision
making in large language models (LLMs), especially for clinical applications,
requires effective reasoning. Yet this remains challenging without supervised
fine-tuning (SFT) on costly chain-of-thought (CoT) data distilled from
closed-source models (e.g., GPT-4o). In this work, we present AlphaMed, the
first medical LLM to show that reasoning capability can emerge purely through
reinforcement learning (RL), using minimalist rule-based rewards on public
multiple-choice QA datasets, without relying on SFT or distilled CoT data.
AlphaMed achieves state-of-the-art results on six medical QA benchmarks,
outperforming models trained with conventional SFT+RL pipelines. On challenging
benchmarks (e.g., MedXpert), AlphaMed even surpasses larger or closed-source
models such as DeepSeek-V3-671B and Claude-3.5-Sonnet. To understand the
factors behind this success, we conduct a comprehensive data-centric analysis
guided by three questions: (i) Can minimalist rule-based RL incentivize
reasoning without distilled CoT supervision? (ii) How do dataset quantity and
diversity impact reasoning? (iii) How does question difficulty shape the
emergence and generalization of reasoning? Our findings show that dataset
informativeness is a key driver of reasoning performance, and that minimalist
RL on informative, multiple-choice QA data is effective at inducing reasoning
without CoT supervision. We also observe divergent trends across benchmarks,
underscoring limitations in current evaluation and the need for more
challenging, reasoning-oriented medical QA benchmarks.