ChatPaper.aiChatPaper

Más allá de la destilación: llevando al límite el razonamiento de los LLM médicos con un enfoque minimalista de RL basado en reglas

Beyond Distillation: Pushing the Limits of Medical LLM Reasoning with Minimalist Rule-Based RL

May 23, 2025
Autores: Che Liu, Haozhe Wang, Jiazhen Pan, Zhongwei Wan, Yong Dai, Fangzhen Lin, Wenjia Bai, Daniel Rueckert, Rossella Arcucci
cs.AI

Resumen

Mejorar el rendimiento en tareas complejas y permitir la toma de decisiones interpretable en modelos de lenguaje de gran escala (LLMs), especialmente para aplicaciones clínicas, requiere un razonamiento efectivo. Sin embargo, esto sigue siendo un desafío sin un ajuste fino supervisado (SFT) en costosos datos de cadena de pensamiento (CoT) destilados de modelos de código cerrado (por ejemplo, GPT-4o). En este trabajo, presentamos AlphaMed, el primer LLM médico que demuestra que la capacidad de razonamiento puede surgir únicamente a través del aprendizaje por refuerzo (RL), utilizando recompensas minimalistas basadas en reglas en conjuntos de datos públicos de preguntas y respuestas de opción múltiple, sin depender de SFT o datos de CoT destilados. AlphaMed logra resultados de vanguardia en seis benchmarks de preguntas y respuestas médicas, superando a modelos entrenados con pipelines convencionales de SFT+RL. En benchmarks desafiantes (por ejemplo, MedXpert), AlphaMed incluso supera a modelos más grandes o de código cerrado como DeepSeek-V3-671B y Claude-3.5-Sonnet. Para comprender los factores detrás de este éxito, realizamos un análisis centrado en datos guiado por tres preguntas: (i) ¿Puede el RL minimalista basado en reglas incentivar el razonamiento sin supervisión de CoT destilado? (ii) ¿Cómo impactan la cantidad y la diversidad del conjunto de datos en el razonamiento? (iii) ¿Cómo moldea la dificultad de las preguntas la emergencia y generalización del razonamiento? Nuestros hallazgos muestran que la informatividad del conjunto de datos es un factor clave en el rendimiento del razonamiento, y que el RL minimalista en datos informativos de preguntas y respuestas de opción múltiple es efectivo para inducir razonamiento sin supervisión de CoT. También observamos tendencias divergentes entre los benchmarks, destacando limitaciones en la evaluación actual y la necesidad de benchmarks médicos de preguntas y respuestas más desafiantes y orientados al razonamiento.
English
Improving performance on complex tasks and enabling interpretable decision making in large language models (LLMs), especially for clinical applications, requires effective reasoning. Yet this remains challenging without supervised fine-tuning (SFT) on costly chain-of-thought (CoT) data distilled from closed-source models (e.g., GPT-4o). In this work, we present AlphaMed, the first medical LLM to show that reasoning capability can emerge purely through reinforcement learning (RL), using minimalist rule-based rewards on public multiple-choice QA datasets, without relying on SFT or distilled CoT data. AlphaMed achieves state-of-the-art results on six medical QA benchmarks, outperforming models trained with conventional SFT+RL pipelines. On challenging benchmarks (e.g., MedXpert), AlphaMed even surpasses larger or closed-source models such as DeepSeek-V3-671B and Claude-3.5-Sonnet. To understand the factors behind this success, we conduct a comprehensive data-centric analysis guided by three questions: (i) Can minimalist rule-based RL incentivize reasoning without distilled CoT supervision? (ii) How do dataset quantity and diversity impact reasoning? (iii) How does question difficulty shape the emergence and generalization of reasoning? Our findings show that dataset informativeness is a key driver of reasoning performance, and that minimalist RL on informative, multiple-choice QA data is effective at inducing reasoning without CoT supervision. We also observe divergent trends across benchmarks, underscoring limitations in current evaluation and the need for more challenging, reasoning-oriented medical QA benchmarks.

Summary

AI-Generated Summary

PDF192May 28, 2025