医学におけるo1の予備的研究:AI医師への接近はもうすぐか?
A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?
September 23, 2024
著者: Yunfei Xie, Juncheng Wu, Haoqin Tu, Siwei Yang, Bingchen Zhao, Yongshuo Zong, Qiao Jin, Cihang Xie, Yuyin Zhou
cs.AI
要旨
大規模言語モデル(LLMs)は、さまざまな領域やタスクで驚異的な能力を示し、学習と認知の知識の限界を押し広げてきました。最新モデルであるOpenAIのo1は、内部化された思考の連鎖技術を用いた最初のLLMとして際立っており、強化学習戦略を使用しています。o1は、さまざまな一般言語タスクで驚くほど強力な能力を示していますが、医学などの専門分野での性能は未知です。この報告書では、o1の医学シナリオにおける包括的な探索を提供し、理解、推論、多言語性の3つの主要な側面を検討します。具体的には、New England Journal of Medicine(NEJM)およびThe Lancetからの専門医学クイズに基づく、より難解な2つの新しい質問応答(QA)タスクを含む37の医学データセットからのデータを使用して6つのタスクを評価します。これらのデータセットは、MedQAなどの標準的な医学QAベンチマークよりも臨床的な関連性が高く、現実世界での臨床的有用性により効果的に翻訳されます。o1の分析から、LLMsの強化された推論能力が、さまざまな医学的指示を理解し、複雑な臨床シナリオを推論する能力に大きく貢献する可能性があることが示唆されます。特に、o1は、19のデータセットと2つの新しく作成された複雑なQAシナリオ全体で、平均してGPT-4を6.2%と6.6%上回っています。しかし一方で、モデルの能力と既存の評価プロトコルにいくつかの弱点が特定されており、幻覚、一貫性のない多言語能力、および評価のための食い違った指標が含まれています。将来の研究のために、当社はhttps://ucsc-vlaa.github.io/o1_medicine/で生データとモデルの出力を公開しています。
English
Large language models (LLMs) have exhibited remarkable capabilities across
various domains and tasks, pushing the boundaries of our knowledge in learning
and cognition. The latest model, OpenAI's o1, stands out as the first LLM with
an internalized chain-of-thought technique using reinforcement learning
strategies. While it has demonstrated surprisingly strong capabilities on
various general language tasks, its performance in specialized fields such as
medicine remains unknown. To this end, this report provides a comprehensive
exploration of o1 on different medical scenarios, examining 3 key aspects:
understanding, reasoning, and multilinguality. Specifically, our evaluation
encompasses 6 tasks using data from 37 medical datasets, including two newly
constructed and more challenging question-answering (QA) tasks based on
professional medical quizzes from the New England Journal of Medicine (NEJM)
and The Lancet. These datasets offer greater clinical relevance compared to
standard medical QA benchmarks such as MedQA, translating more effectively into
real-world clinical utility. Our analysis of o1 suggests that the enhanced
reasoning ability of LLMs may (significantly) benefit their capability to
understand various medical instructions and reason through complex clinical
scenarios. Notably, o1 surpasses the previous GPT-4 in accuracy by an average
of 6.2% and 6.6% across 19 datasets and two newly created complex QA scenarios.
But meanwhile, we identify several weaknesses in both the model capability and
the existing evaluation protocols, including hallucination, inconsistent
multilingual ability, and discrepant metrics for evaluation. We release our raw
data and model outputs at https://ucsc-vlaa.github.io/o1_medicine/ for future
research.Summary
AI-Generated Summary