Een Voorlopige Studie van o1 in de Geneeskunde: Zijn We Dichterbij een AI Dokter?
A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?
September 23, 2024
Auteurs: Yunfei Xie, Juncheng Wu, Haoqin Tu, Siwei Yang, Bingchen Zhao, Yongshuo Zong, Qiao Jin, Cihang Xie, Yuyin Zhou
cs.AI
Samenvatting
Grote taalmodellen (LLM's) hebben opmerkelijke capaciteiten getoond in verschillende domeinen en taken, waarbij ze de grenzen van onze kennis op het gebied van leren en cognitie hebben verlegd. Het nieuwste model, OpenAI's o1, valt op als het eerste LLM met een geïnternaliseerde keten-van-gedachte techniek die gebruikmaakt van versterkend leren strategieën. Hoewel het verrassend sterke capaciteiten heeft gedemonstreerd op verschillende algemene taaltaken, is de prestatie ervan in gespecialiseerde gebieden zoals geneeskunde onbekend. Daarom biedt dit rapport een uitgebreide verkenning van o1 in verschillende medische scenario's, waarbij 3 belangrijke aspecten worden onderzocht: begrip, redenering en meertaligheid. Specifiek omvat onze evaluatie 6 taken met gegevens van 37 medische datasets, waaronder twee nieuw gecreëerde en uitdagendere vraag-antwoord (QA) taken gebaseerd op professionele medische quizzen van het New England Journal of Medicine (NEJM) en The Lancet. Deze datasets bieden een grotere klinische relevantie in vergelijking met standaard medische QA benchmarks zoals MedQA, wat effectiever vertaalt naar klinisch nut in de echte wereld. Onze analyse van o1 suggereert dat de verbeterde redeneervaardigheid van LLM's hun vermogen om verschillende medische instructies te begrijpen en te redeneren door complexe klinische scenario's aanzienlijk kan verbeteren. Opmerkelijk is dat o1 de vorige GPT-4 overtreft in nauwkeurigheid met gemiddeld 6,2% en 6,6% over 19 datasets en twee nieuw gecreëerde complexe QA scenario's. Tegelijkertijd identificeren we verschillende zwaktes in zowel de modelcapaciteit als de bestaande evaluatieprotocollen, waaronder hallucinaties, inconsistente meertalige vaardigheid en afwijkende metrieken voor evaluatie. We publiceren onze ruwe data en modelresultaten op https://ucsc-vlaa.github.io/o1_medicine/ voor toekomstig onderzoek.
English
Large language models (LLMs) have exhibited remarkable capabilities across
various domains and tasks, pushing the boundaries of our knowledge in learning
and cognition. The latest model, OpenAI's o1, stands out as the first LLM with
an internalized chain-of-thought technique using reinforcement learning
strategies. While it has demonstrated surprisingly strong capabilities on
various general language tasks, its performance in specialized fields such as
medicine remains unknown. To this end, this report provides a comprehensive
exploration of o1 on different medical scenarios, examining 3 key aspects:
understanding, reasoning, and multilinguality. Specifically, our evaluation
encompasses 6 tasks using data from 37 medical datasets, including two newly
constructed and more challenging question-answering (QA) tasks based on
professional medical quizzes from the New England Journal of Medicine (NEJM)
and The Lancet. These datasets offer greater clinical relevance compared to
standard medical QA benchmarks such as MedQA, translating more effectively into
real-world clinical utility. Our analysis of o1 suggests that the enhanced
reasoning ability of LLMs may (significantly) benefit their capability to
understand various medical instructions and reason through complex clinical
scenarios. Notably, o1 surpasses the previous GPT-4 in accuracy by an average
of 6.2% and 6.6% across 19 datasets and two newly created complex QA scenarios.
But meanwhile, we identify several weaknesses in both the model capability and
the existing evaluation protocols, including hallucination, inconsistent
multilingual ability, and discrepant metrics for evaluation. We release our raw
data and model outputs at https://ucsc-vlaa.github.io/o1_medicine/ for future
research.Summary
AI-Generated Summary