Viaje de Replicación O1 - Parte 3: Escalado en Tiempo de Inferencia para el Razonamiento Médico
O1 Replication Journey -- Part 3: Inference-time Scaling for Medical Reasoning
January 11, 2025
Autores: Zhongzhen Huang, Gui Geng, Shengyi Hua, Zhen Huang, Haoyang Zou, Shaoting Zhang, Pengfei Liu, Xiaofan Zhang
cs.AI
Resumen
Basándonos en nuestras investigaciones previas sobre la replicación de O1 (Parte 1: Aprendizaje del Viaje [Qin et al., 2024] y Parte 2: Destilación [Huang et al., 2024]), este trabajo explora el potencial del escalado en tiempo de inferencia en modelos de lenguaje grandes (LLMs) para tareas de razonamiento médico, que van desde la toma de decisiones diagnósticas hasta la planificación del tratamiento. A través de experimentos exhaustivos en benchmarks médicos de variada complejidad (MedQA, Medbullets y Desafíos Clínicos de JAMA), nuestra investigación revela varias ideas clave: (1) Aumentar el tiempo de inferencia sí conduce a una mejora en el rendimiento. Con un modesto conjunto de entrenamiento de 500 muestras, nuestro modelo produce mejoras sustanciales de rendimiento del 6% al 11%. (2) La complejidad de la tarea se correlaciona directamente con la longitud necesaria de las cadenas de razonamiento, confirmando la necesidad de procesos de pensamiento extendidos para problemas desafiantes. (3) Los diagnósticos diferenciales generados por nuestro modelo se adhieren a los principios del método hipotético-deductivo, produciendo una lista de posibles condiciones que podrían explicar los síntomas de un paciente y reduciendo sistemáticamente estas posibilidades mediante la evaluación de la evidencia. Estos hallazgos demuestran la prometedora sinergia entre el escalado en tiempo de inferencia y el aprendizaje del viaje en el avance de las capacidades de razonamiento clínico del mundo real de los LLMs.
English
Building upon our previous investigations of O1 replication (Part 1: Journey
Learning [Qin et al., 2024] and Part 2: Distillation [Huang et al., 2024]),
this work explores the potential of inference-time scaling in large language
models (LLMs) for medical reasoning tasks, ranging from diagnostic
decision-making to treatment planning. Through extensive experiments on medical
benchmarks of varying complexity (MedQA, Medbullets, and JAMA Clinical
Challenges), our investigation reveals several key insights: (1) Increasing
inference time does lead to improved performance. With a modest training set of
500 samples, our model yields substantial performance improvements of 6%-11%.
(2) Task complexity directly correlates with the required length of reasoning
chains, confirming the necessity of extended thought processes for challenging
problems. (3) The differential diagnoses generated by our model adhere to the
principles of the hypothetico-deductive method, producing a list of potential
conditions that may explain a patient's symptoms and systematically narrowing
these possibilities by evaluating the evidence. These findings demonstrate the
promising synergy between inference-time scaling and journey learning in
advancing LLMs' real-world clinical reasoning capabilities.Summary
AI-Generated Summary