Un Estudio Preliminar de o1 en Medicina: ¿Estamos Más Cerca de un Doctor de IA?

Resumen

Los grandes modelos de lenguaje (LLMs) han demostrado capacidades notables en diversos dominios y tareas, empujando los límites de nuestro conocimiento en aprendizaje y cognición. El último modelo, o1 de OpenAI, destaca como el primer LLM con una técnica interna de cadena de pensamiento utilizando estrategias de aprendizaje por refuerzo. Aunque ha demostrado capacidades sorprendentemente sólidas en diversas tareas generales del lenguaje, su rendimiento en campos especializados como la medicina sigue siendo desconocido. Con este fin, este informe proporciona una exploración exhaustiva de o1 en diferentes escenarios médicos, examinando 3 aspectos clave: comprensión, razonamiento y multilingüismo. Específicamente, nuestra evaluación abarca 6 tareas utilizando datos de 37 conjuntos de datos médicos, incluidas dos tareas de preguntas y respuestas (QA) recién creadas y más desafiantes basadas en cuestionarios médicos profesionales del New England Journal of Medicine (NEJM) y The Lancet. Estos conjuntos de datos ofrecen una mayor relevancia clínica en comparación con los puntos de referencia estándar de QA médica como MedQA, traduciéndose de manera más efectiva en utilidad clínica del mundo real. Nuestro análisis de o1 sugiere que la capacidad de razonamiento mejorada de los LLMs puede beneficiar significativamente su capacidad para comprender diversas instrucciones médicas y razonar a través de escenarios clínicos complejos. Notablemente, o1 supera al anterior GPT-4 en precisión en un promedio de 6.2% y 6.6% en 19 conjuntos de datos y dos escenarios de QA complejos recién creados. Sin embargo, identificamos varias debilidades tanto en la capacidad del modelo como en los protocolos de evaluación existentes, incluyendo alucinaciones, capacidad multilingüe inconsistente y métricas discrepantes para la evaluación. Publicamos nuestros datos en bruto y resultados del modelo en https://ucsc-vlaa.github.io/o1_medicine/ para futuras investigaciones.

English

Large language models (LLMs) have exhibited remarkable capabilities across various domains and tasks, pushing the boundaries of our knowledge in learning and cognition. The latest model, OpenAI's o1, stands out as the first LLM with an internalized chain-of-thought technique using reinforcement learning strategies. While it has demonstrated surprisingly strong capabilities on various general language tasks, its performance in specialized fields such as medicine remains unknown. To this end, this report provides a comprehensive exploration of o1 on different medical scenarios, examining 3 key aspects: understanding, reasoning, and multilinguality. Specifically, our evaluation encompasses 6 tasks using data from 37 medical datasets, including two newly constructed and more challenging question-answering (QA) tasks based on professional medical quizzes from the New England Journal of Medicine (NEJM) and The Lancet. These datasets offer greater clinical relevance compared to standard medical QA benchmarks such as MedQA, translating more effectively into real-world clinical utility. Our analysis of o1 suggests that the enhanced reasoning ability of LLMs may (significantly) benefit their capability to understand various medical instructions and reason through complex clinical scenarios. Notably, o1 surpasses the previous GPT-4 in accuracy by an average of 6.2% and 6.6% across 19 datasets and two newly created complex QA scenarios. But meanwhile, we identify several weaknesses in both the model capability and the existing evaluation protocols, including hallucination, inconsistent multilingual ability, and discrepant metrics for evaluation. We release our raw data and model outputs at https://ucsc-vlaa.github.io/o1_medicine/ for future research.

Un Estudio Preliminar de o1 en Medicina: ¿Estamos Más Cerca de un Doctor de IA?

A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?

Resumen

Support