ChatPaper.aiChatPaper

m1: Libera el Potencial del Escalado en Tiempo de Prueba para el Razonamiento Médico con Modelos de Lenguaje de Gran Escala

m1: Unleash the Potential of Test-Time Scaling for Medical Reasoning with Large Language Models

April 1, 2025
Autores: Xiaoke Huang, Juncheng Wu, Hui Liu, Xianfeng Tang, Yuyin Zhou
cs.AI

Resumen

El escalado en tiempo de prueba ha surgido como una técnica poderosa para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes. Sin embargo, su efectividad en el razonamiento médico sigue siendo incierta, ya que el dominio médico difiere fundamentalmente de las tareas matemáticas en términos de representación del conocimiento y procesos de toma de decisiones. En este artículo, presentamos la primera investigación exhaustiva del escalado en tiempo de prueba para el razonamiento médico y presentamos m1, un enfoque simple pero efectivo que aumenta la capacidad de razonamiento médico de un modelo durante la inferencia. Nuestra evaluación en diversas tareas médicas demuestra que el escalado en tiempo de prueba mejora consistentemente el razonamiento médico, permitiendo que modelos ajustados ligeramente con menos de 10B parámetros establezcan un nuevo estado del arte, mientras que nuestro modelo de 32B rivaliza con modelos médicos de lenguaje grandes anteriores de 70B de escala. Sin embargo, identificamos un presupuesto óptimo de tokens de razonamiento de aproximadamente 4K, más allá del cual el rendimiento puede degradarse debido a un exceso de reflexión. El forzado de presupuesto, que extiende el cálculo en tiempo de prueba mediante indicaciones iterativas, ayuda a los modelos a verificar respuestas, pero no necesariamente mejora el rendimiento general en preguntas y respuestas médicas y, en algunos casos, incluso introduce errores en respuestas previamente correctas. Nuestro análisis caso por caso identifica el conocimiento médico insuficiente como un cuello de botella clave que impide mayores ganancias de rendimiento a través del escalado en tiempo de prueba. Encontramos que aumentar la escala de datos, mejorar la calidad de los datos y expandir la capacidad del modelo mejora consistentemente la base de conocimiento médico, permitiendo mejoras continuas en el rendimiento, particularmente en puntos de referencia médicos desafiantes donde los modelos más pequeños alcanzan la saturación. Estos hallazgos subrayan las diferencias fundamentales entre el razonamiento médico y matemático en los modelos de lenguaje grandes, destacando que un conocimiento médico enriquecido, más que solo una mayor profundidad de razonamiento, es esencial para aprovechar los beneficios del escalado en tiempo de prueba.
English
Test-time scaling has emerged as a powerful technique for enhancing the reasoning capabilities of large language models. However, its effectiveness in medical reasoning remains uncertain, as the medical domain fundamentally differs from mathematical tasks in terms of knowledge representation and decision-making processes. In this paper, we provide the first comprehensive investigation of test-time scaling for medical reasoning and present m1, a simple yet effective approach that increases a model's medical reasoning capability at inference. Our evaluation across diverse medical tasks demonstrates that test-time scaling consistently enhances medical reasoning, enabling lightweight fine-tuned models under 10B parameters to establish new state-of-the-art performance, while our 32B model rivals previous 70B-scale medical LLMs. However, we identify an optimal reasoning token budget of approximately 4K, beyond which performance may degrade due to overthinking. Budget forcing, which extends test-time computation through iterative prompts, helps models double-check answers but does not necessarily improve the overall medical QA performance and, in some cases, even introduces errors into previously correct responses. Our case-by-case analysis identifies insufficient medical knowledge as a key bottleneck that prevents further performance gains through test-time scaling. We find that increasing data scale, improving data quality, and expanding model capacity consistently enhance medical knowledge grounding, enabling continued performance improvements, particularly on challenging medical benchmarks where smaller models reach saturation. These findings underscore fundamental differences between medical and mathematical reasoning in LLMs, highlighting that enriched medical knowledge, other than increased reasoning depth alone, is essential for realizing the benefits of test-time scaling.

Summary

AI-Generated Summary

PDF102April 2, 2025