Um Estudo Preliminar de IA na Medicina: Estamos Mais Próximos de um Médico de IA?

Resumo

Os grandes modelos de linguagem (LLMs) têm demonstrado capacidades notáveis em diversos domínios e tarefas, ampliando os limites do nosso conhecimento em aprendizado e cognição. O modelo mais recente, o o1 da OpenAI, destaca-se como o primeiro LLM com uma técnica internalizada de encadeamento de pensamento utilizando estratégias de aprendizado por reforço. Embora tenha demonstrado capacidades surpreendentemente fortes em diversas tarefas gerais de linguagem, seu desempenho em campos especializados como a medicina permanece desconhecido. Com esse propósito, este relatório fornece uma exploração abrangente do o1 em diferentes cenários médicos, examinando 3 aspectos-chave: compreensão, raciocínio e multilinguismo. Especificamente, nossa avaliação abrange 6 tarefas utilizando dados de 37 conjuntos de dados médicos, incluindo dois novos e mais desafiadores questionários de perguntas e respostas (QA) baseados em questionários médicos profissionais do New England Journal of Medicine (NEJM) e The Lancet. Esses conjuntos de dados oferecem maior relevância clínica em comparação com benchmarks padrão de QA médico, como o MedQA, traduzindo-se de forma mais eficaz para a utilidade clínica do mundo real. Nossa análise do o1 sugere que a capacidade aprimorada de raciocínio dos LLMs pode beneficiar significativamente sua capacidade de compreender várias instruções médicas e raciocinar por meio de cenários clínicos complexos. Notavelmente, o o1 supera o anterior GPT-4 em precisão em média de 6,2% e 6,6% em 19 conjuntos de dados e dois cenários de QA complexos recém-criados. No entanto, identificamos várias fraquezas tanto na capacidade do modelo quanto nos protocolos de avaliação existentes, incluindo alucinação, capacidade multilíngue inconsistente e métricas discrepantes para avaliação. Disponibilizamos nossos dados brutos e resultados do modelo em https://ucsc-vlaa.github.io/o1_medicine/ para futuras pesquisas.

English

Large language models (LLMs) have exhibited remarkable capabilities across various domains and tasks, pushing the boundaries of our knowledge in learning and cognition. The latest model, OpenAI's o1, stands out as the first LLM with an internalized chain-of-thought technique using reinforcement learning strategies. While it has demonstrated surprisingly strong capabilities on various general language tasks, its performance in specialized fields such as medicine remains unknown. To this end, this report provides a comprehensive exploration of o1 on different medical scenarios, examining 3 key aspects: understanding, reasoning, and multilinguality. Specifically, our evaluation encompasses 6 tasks using data from 37 medical datasets, including two newly constructed and more challenging question-answering (QA) tasks based on professional medical quizzes from the New England Journal of Medicine (NEJM) and The Lancet. These datasets offer greater clinical relevance compared to standard medical QA benchmarks such as MedQA, translating more effectively into real-world clinical utility. Our analysis of o1 suggests that the enhanced reasoning ability of LLMs may (significantly) benefit their capability to understand various medical instructions and reason through complex clinical scenarios. Notably, o1 surpasses the previous GPT-4 in accuracy by an average of 6.2% and 6.6% across 19 datasets and two newly created complex QA scenarios. But meanwhile, we identify several weaknesses in both the model capability and the existing evaluation protocols, including hallucination, inconsistent multilingual ability, and discrepant metrics for evaluation. We release our raw data and model outputs at https://ucsc-vlaa.github.io/o1_medicine/ for future research.

Um Estudo Preliminar de IA na Medicina: Estamos Mais Próximos de um Médico de IA?

A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?

Resumo

Support