Un Estudio Preliminar de o1 en Medicina: ¿Estamos Más Cerca de un Doctor de IA?
A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?
September 23, 2024
Autores: Yunfei Xie, Juncheng Wu, Haoqin Tu, Siwei Yang, Bingchen Zhao, Yongshuo Zong, Qiao Jin, Cihang Xie, Yuyin Zhou
cs.AI
Resumen
Los grandes modelos de lenguaje (LLMs) han demostrado capacidades notables en diversos dominios y tareas, empujando los límites de nuestro conocimiento en aprendizaje y cognición. El último modelo, o1 de OpenAI, destaca como el primer LLM con una técnica interna de cadena de pensamiento utilizando estrategias de aprendizaje por refuerzo. Aunque ha demostrado capacidades sorprendentemente sólidas en diversas tareas generales del lenguaje, su rendimiento en campos especializados como la medicina sigue siendo desconocido. Con este fin, este informe proporciona una exploración exhaustiva de o1 en diferentes escenarios médicos, examinando 3 aspectos clave: comprensión, razonamiento y multilingüismo. Específicamente, nuestra evaluación abarca 6 tareas utilizando datos de 37 conjuntos de datos médicos, incluidas dos tareas de preguntas y respuestas (QA) recién creadas y más desafiantes basadas en cuestionarios médicos profesionales del New England Journal of Medicine (NEJM) y The Lancet. Estos conjuntos de datos ofrecen una mayor relevancia clínica en comparación con los puntos de referencia estándar de QA médica como MedQA, traduciéndose de manera más efectiva en utilidad clínica del mundo real. Nuestro análisis de o1 sugiere que la capacidad de razonamiento mejorada de los LLMs puede beneficiar significativamente su capacidad para comprender diversas instrucciones médicas y razonar a través de escenarios clínicos complejos. Notablemente, o1 supera al anterior GPT-4 en precisión en un promedio de 6.2% y 6.6% en 19 conjuntos de datos y dos escenarios de QA complejos recién creados. Sin embargo, identificamos varias debilidades tanto en la capacidad del modelo como en los protocolos de evaluación existentes, incluyendo alucinaciones, capacidad multilingüe inconsistente y métricas discrepantes para la evaluación. Publicamos nuestros datos en bruto y resultados del modelo en https://ucsc-vlaa.github.io/o1_medicine/ para futuras investigaciones.
English
Large language models (LLMs) have exhibited remarkable capabilities across
various domains and tasks, pushing the boundaries of our knowledge in learning
and cognition. The latest model, OpenAI's o1, stands out as the first LLM with
an internalized chain-of-thought technique using reinforcement learning
strategies. While it has demonstrated surprisingly strong capabilities on
various general language tasks, its performance in specialized fields such as
medicine remains unknown. To this end, this report provides a comprehensive
exploration of o1 on different medical scenarios, examining 3 key aspects:
understanding, reasoning, and multilinguality. Specifically, our evaluation
encompasses 6 tasks using data from 37 medical datasets, including two newly
constructed and more challenging question-answering (QA) tasks based on
professional medical quizzes from the New England Journal of Medicine (NEJM)
and The Lancet. These datasets offer greater clinical relevance compared to
standard medical QA benchmarks such as MedQA, translating more effectively into
real-world clinical utility. Our analysis of o1 suggests that the enhanced
reasoning ability of LLMs may (significantly) benefit their capability to
understand various medical instructions and reason through complex clinical
scenarios. Notably, o1 surpasses the previous GPT-4 in accuracy by an average
of 6.2% and 6.6% across 19 datasets and two newly created complex QA scenarios.
But meanwhile, we identify several weaknesses in both the model capability and
the existing evaluation protocols, including hallucination, inconsistent
multilingual ability, and discrepant metrics for evaluation. We release our raw
data and model outputs at https://ucsc-vlaa.github.io/o1_medicine/ for future
research.Summary
AI-Generated Summary