Além da Destilação: Expandindo os Limites do Raciocínio de LLMs Médicos com RL Baseado em Regras Minimalista

Resumo

Melhorar o desempenho em tarefas complexas e possibilitar a tomada de decisão interpretável em modelos de linguagem de grande escala (LLMs), especialmente para aplicações clínicas, requer raciocínio eficaz. No entanto, isso continua desafiador sem o ajuste fino supervisionado (SFT) em dados caros de cadeia de pensamento (CoT) destilados de modelos de código fechado (por exemplo, GPT-4o). Neste trabalho, apresentamos o AlphaMed, o primeiro LLM médico a demonstrar que a capacidade de raciocínio pode emergir puramente por meio de aprendizado por reforço (RL), utilizando recompensas minimalistas baseadas em regras em conjuntos de dados públicos de perguntas e respostas de múltipla escolha, sem depender de SFT ou dados de CoT destilados. O AlphaMed alcança resultados de ponta em seis benchmarks de perguntas e respostas médicas, superando modelos treinados com pipelines convencionais de SFT+RL. Em benchmarks desafiadores (por exemplo, MedXpert), o AlphaMed até supera modelos maiores ou de código fechado, como DeepSeek-V3-671B e Claude-3.5-Sonnet. Para entender os fatores por trás desse sucesso, realizamos uma análise abrangente centrada nos dados, guiada por três perguntas: (i) O RL minimalista baseado em regras pode incentivar o raciocínio sem supervisão de CoT destilado? (ii) Como a quantidade e a diversidade dos dados impactam o raciocínio? (iii) Como a dificuldade das perguntas molda a emergência e a generalização do raciocínio? Nossas descobertas mostram que a informatividade dos dados é um fator-chave para o desempenho do raciocínio, e que o RL minimalista em dados informativos de perguntas e respostas de múltipla escolha é eficaz para induzir o raciocínio sem supervisão de CoT. Também observamos tendências divergentes entre os benchmarks, destacando limitações na avaliação atual e a necessidade de benchmarks médicos de perguntas e respostas mais desafiadores e orientados para o raciocínio.

English

Improving performance on complex tasks and enabling interpretable decision making in large language models (LLMs), especially for clinical applications, requires effective reasoning. Yet this remains challenging without supervised fine-tuning (SFT) on costly chain-of-thought (CoT) data distilled from closed-source models (e.g., GPT-4o). In this work, we present AlphaMed, the first medical LLM to show that reasoning capability can emerge purely through reinforcement learning (RL), using minimalist rule-based rewards on public multiple-choice QA datasets, without relying on SFT or distilled CoT data. AlphaMed achieves state-of-the-art results on six medical QA benchmarks, outperforming models trained with conventional SFT+RL pipelines. On challenging benchmarks (e.g., MedXpert), AlphaMed even surpasses larger or closed-source models such as DeepSeek-V3-671B and Claude-3.5-Sonnet. To understand the factors behind this success, we conduct a comprehensive data-centric analysis guided by three questions: (i) Can minimalist rule-based RL incentivize reasoning without distilled CoT supervision? (ii) How do dataset quantity and diversity impact reasoning? (iii) How does question difficulty shape the emergence and generalization of reasoning? Our findings show that dataset informativeness is a key driver of reasoning performance, and that minimalist RL on informative, multiple-choice QA data is effective at inducing reasoning without CoT supervision. We also observe divergent trends across benchmarks, underscoring limitations in current evaluation and the need for more challenging, reasoning-oriented medical QA benchmarks.

Além da Destilação: Expandindo os Limites do Raciocínio de LLMs Médicos com RL Baseado em Regras Minimalista

Beyond Distillation: Pushing the Limits of Medical LLM Reasoning with Minimalist Rule-Based RL

Resumo

Support