Más allá de la destilación: llevando al límite el razonamiento de los LLM médicos con un enfoque minimalista de RL basado en reglas
Beyond Distillation: Pushing the Limits of Medical LLM Reasoning with Minimalist Rule-Based RL
May 23, 2025
Autores: Che Liu, Haozhe Wang, Jiazhen Pan, Zhongwei Wan, Yong Dai, Fangzhen Lin, Wenjia Bai, Daniel Rueckert, Rossella Arcucci
cs.AI
Resumen
Mejorar el rendimiento en tareas complejas y permitir la toma de decisiones interpretable en modelos de lenguaje de gran escala (LLMs), especialmente para aplicaciones clínicas, requiere un razonamiento efectivo. Sin embargo, esto sigue siendo un desafío sin un ajuste fino supervisado (SFT) en costosos datos de cadena de pensamiento (CoT) destilados de modelos de código cerrado (por ejemplo, GPT-4o). En este trabajo, presentamos AlphaMed, el primer LLM médico que demuestra que la capacidad de razonamiento puede surgir únicamente a través del aprendizaje por refuerzo (RL), utilizando recompensas minimalistas basadas en reglas en conjuntos de datos públicos de preguntas y respuestas de opción múltiple, sin depender de SFT o datos de CoT destilados. AlphaMed logra resultados de vanguardia en seis benchmarks de preguntas y respuestas médicas, superando a modelos entrenados con pipelines convencionales de SFT+RL. En benchmarks desafiantes (por ejemplo, MedXpert), AlphaMed incluso supera a modelos más grandes o de código cerrado como DeepSeek-V3-671B y Claude-3.5-Sonnet. Para comprender los factores detrás de este éxito, realizamos un análisis centrado en datos guiado por tres preguntas: (i) ¿Puede el RL minimalista basado en reglas incentivar el razonamiento sin supervisión de CoT destilado? (ii) ¿Cómo impactan la cantidad y la diversidad del conjunto de datos en el razonamiento? (iii) ¿Cómo moldea la dificultad de las preguntas la emergencia y generalización del razonamiento? Nuestros hallazgos muestran que la informatividad del conjunto de datos es un factor clave en el rendimiento del razonamiento, y que el RL minimalista en datos informativos de preguntas y respuestas de opción múltiple es efectivo para inducir razonamiento sin supervisión de CoT. También observamos tendencias divergentes entre los benchmarks, destacando limitaciones en la evaluación actual y la necesidad de benchmarks médicos de preguntas y respuestas más desafiantes y orientados al razonamiento.
English
Improving performance on complex tasks and enabling interpretable decision
making in large language models (LLMs), especially for clinical applications,
requires effective reasoning. Yet this remains challenging without supervised
fine-tuning (SFT) on costly chain-of-thought (CoT) data distilled from
closed-source models (e.g., GPT-4o). In this work, we present AlphaMed, the
first medical LLM to show that reasoning capability can emerge purely through
reinforcement learning (RL), using minimalist rule-based rewards on public
multiple-choice QA datasets, without relying on SFT or distilled CoT data.
AlphaMed achieves state-of-the-art results on six medical QA benchmarks,
outperforming models trained with conventional SFT+RL pipelines. On challenging
benchmarks (e.g., MedXpert), AlphaMed even surpasses larger or closed-source
models such as DeepSeek-V3-671B and Claude-3.5-Sonnet. To understand the
factors behind this success, we conduct a comprehensive data-centric analysis
guided by three questions: (i) Can minimalist rule-based RL incentivize
reasoning without distilled CoT supervision? (ii) How do dataset quantity and
diversity impact reasoning? (iii) How does question difficulty shape the
emergence and generalization of reasoning? Our findings show that dataset
informativeness is a key driver of reasoning performance, and that minimalist
RL on informative, multiple-choice QA data is effective at inducing reasoning
without CoT supervision. We also observe divergent trends across benchmarks,
underscoring limitations in current evaluation and the need for more
challenging, reasoning-oriented medical QA benchmarks.Summary
AI-Generated Summary