Uno Studio Preliminare sull'O1 in Medicina: Siamo più Vicini a un Medico AI?
A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?
September 23, 2024
Autori: Yunfei Xie, Juncheng Wu, Haoqin Tu, Siwei Yang, Bingchen Zhao, Yongshuo Zong, Qiao Jin, Cihang Xie, Yuyin Zhou
cs.AI
Abstract
I grandi modelli linguistici (LLM) hanno dimostrato capacità notevoli in vari ambiti e compiti, spingendo i confini della nostra conoscenza nell'apprendimento e nella cognizione. Il modello più recente, l'o1 di OpenAI, si distingue come il primo LLM con una tecnica di concatenazione del pensiero internalizzata che utilizza strategie di apprendimento per rinforzo. Sebbene abbia dimostrato capacità sorprendentemente forti in vari compiti linguistici generali, le sue prestazioni in campi specializzati come la medicina rimangono sconosciute. A tal fine, questo rapporto fornisce un'esplorazione completa dell'o1 in diversi scenari medici, esaminando 3 aspetti chiave: comprensione, ragionamento e multilinguismo. In particolare, la nostra valutazione comprende 6 compiti utilizzando dati provenienti da 37 set di dati medici, tra cui due compiti di domande e risposte (QA) più impegnativi e di recente creazione basati su quiz medici professionali del New England Journal of Medicine (NEJM) e The Lancet. Questi set di dati offrono una maggiore rilevanza clinica rispetto ai benchmark standard di QA medico come MedQA, traducendosi in modo più efficace nell'utilità clinica del mondo reale. La nostra analisi dell'o1 suggerisce che la capacità di ragionamento potenziata dei LLM potrebbe beneficiare in modo significativo della loro capacità di comprendere varie istruzioni mediche e ragionare attraverso scenari clinici complessi. In particolare, l'o1 supera il precedente GPT-4 in accuratezza di una media del 6,2% e del 6,6% su 19 set di dati e due scenari di QA complessi di nuova creazione. Tuttavia, identifichiamo diverse debolezze sia nella capacità del modello che nei protocolli di valutazione esistenti, tra cui l'allucinazione, la capacità multilingue inconsistente e le metriche discordanti per la valutazione. Rilasciamo i nostri dati grezzi e le uscite del modello su https://ucsc-vlaa.github.io/o1_medicine/ per futura ricerca.
English
Large language models (LLMs) have exhibited remarkable capabilities across
various domains and tasks, pushing the boundaries of our knowledge in learning
and cognition. The latest model, OpenAI's o1, stands out as the first LLM with
an internalized chain-of-thought technique using reinforcement learning
strategies. While it has demonstrated surprisingly strong capabilities on
various general language tasks, its performance in specialized fields such as
medicine remains unknown. To this end, this report provides a comprehensive
exploration of o1 on different medical scenarios, examining 3 key aspects:
understanding, reasoning, and multilinguality. Specifically, our evaluation
encompasses 6 tasks using data from 37 medical datasets, including two newly
constructed and more challenging question-answering (QA) tasks based on
professional medical quizzes from the New England Journal of Medicine (NEJM)
and The Lancet. These datasets offer greater clinical relevance compared to
standard medical QA benchmarks such as MedQA, translating more effectively into
real-world clinical utility. Our analysis of o1 suggests that the enhanced
reasoning ability of LLMs may (significantly) benefit their capability to
understand various medical instructions and reason through complex clinical
scenarios. Notably, o1 surpasses the previous GPT-4 in accuracy by an average
of 6.2% and 6.6% across 19 datasets and two newly created complex QA scenarios.
But meanwhile, we identify several weaknesses in both the model capability and
the existing evaluation protocols, including hallucination, inconsistent
multilingual ability, and discrepant metrics for evaluation. We release our raw
data and model outputs at https://ucsc-vlaa.github.io/o1_medicine/ for future
research.Summary
AI-Generated Summary