m1: Libera el Potencial del Escalado en Tiempo de Prueba para el Razonamiento Médico con Modelos de Lenguaje de Gran Escala
m1: Unleash the Potential of Test-Time Scaling for Medical Reasoning with Large Language Models
April 1, 2025
Autores: Xiaoke Huang, Juncheng Wu, Hui Liu, Xianfeng Tang, Yuyin Zhou
cs.AI
Resumen
El escalado en tiempo de prueba ha surgido como una técnica poderosa para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes. Sin embargo, su efectividad en el razonamiento médico sigue siendo incierta, ya que el dominio médico difiere fundamentalmente de las tareas matemáticas en términos de representación del conocimiento y procesos de toma de decisiones. En este artículo, presentamos la primera investigación exhaustiva del escalado en tiempo de prueba para el razonamiento médico y presentamos m1, un enfoque simple pero efectivo que aumenta la capacidad de razonamiento médico de un modelo durante la inferencia. Nuestra evaluación en diversas tareas médicas demuestra que el escalado en tiempo de prueba mejora consistentemente el razonamiento médico, permitiendo que modelos ajustados ligeramente con menos de 10B parámetros establezcan un nuevo estado del arte, mientras que nuestro modelo de 32B rivaliza con modelos médicos de lenguaje grandes anteriores de 70B de escala. Sin embargo, identificamos un presupuesto óptimo de tokens de razonamiento de aproximadamente 4K, más allá del cual el rendimiento puede degradarse debido a un exceso de reflexión. El forzado de presupuesto, que extiende el cálculo en tiempo de prueba mediante indicaciones iterativas, ayuda a los modelos a verificar respuestas, pero no necesariamente mejora el rendimiento general en preguntas y respuestas médicas y, en algunos casos, incluso introduce errores en respuestas previamente correctas. Nuestro análisis caso por caso identifica el conocimiento médico insuficiente como un cuello de botella clave que impide mayores ganancias de rendimiento a través del escalado en tiempo de prueba. Encontramos que aumentar la escala de datos, mejorar la calidad de los datos y expandir la capacidad del modelo mejora consistentemente la base de conocimiento médico, permitiendo mejoras continuas en el rendimiento, particularmente en puntos de referencia médicos desafiantes donde los modelos más pequeños alcanzan la saturación. Estos hallazgos subrayan las diferencias fundamentales entre el razonamiento médico y matemático en los modelos de lenguaje grandes, destacando que un conocimiento médico enriquecido, más que solo una mayor profundidad de razonamiento, es esencial para aprovechar los beneficios del escalado en tiempo de prueba.
English
Test-time scaling has emerged as a powerful technique for enhancing the
reasoning capabilities of large language models. However, its effectiveness in
medical reasoning remains uncertain, as the medical domain fundamentally
differs from mathematical tasks in terms of knowledge representation and
decision-making processes. In this paper, we provide the first comprehensive
investigation of test-time scaling for medical reasoning and present m1, a
simple yet effective approach that increases a model's medical reasoning
capability at inference. Our evaluation across diverse medical tasks
demonstrates that test-time scaling consistently enhances medical reasoning,
enabling lightweight fine-tuned models under 10B parameters to establish new
state-of-the-art performance, while our 32B model rivals previous 70B-scale
medical LLMs. However, we identify an optimal reasoning token budget of
approximately 4K, beyond which performance may degrade due to overthinking.
Budget forcing, which extends test-time computation through iterative prompts,
helps models double-check answers but does not necessarily improve the overall
medical QA performance and, in some cases, even introduces errors into
previously correct responses. Our case-by-case analysis identifies insufficient
medical knowledge as a key bottleneck that prevents further performance gains
through test-time scaling. We find that increasing data scale, improving data
quality, and expanding model capacity consistently enhance medical knowledge
grounding, enabling continued performance improvements, particularly on
challenging medical benchmarks where smaller models reach saturation. These
findings underscore fundamental differences between medical and mathematical
reasoning in LLMs, highlighting that enriched medical knowledge, other than
increased reasoning depth alone, is essential for realizing the benefits of
test-time scaling.Summary
AI-Generated Summary