Eine Vorstudie zu o1 in der Medizin: Sind wir einem KI-Arzt näher?
A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?
September 23, 2024
Autoren: Yunfei Xie, Juncheng Wu, Haoqin Tu, Siwei Yang, Bingchen Zhao, Yongshuo Zong, Qiao Jin, Cihang Xie, Yuyin Zhou
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten in verschiedenen Bereichen und Aufgaben gezeigt, die die Grenzen unseres Wissens im Bereich des Lernens und der Kognition erweitern. Das neueste Modell, OpenAI's o1, zeichnet sich als erstes LLM mit einer internalisierten Ketten-des-Denkens-Technik aus, die Verstärkungslernstrategien verwendet. Obwohl es überraschend starke Fähigkeiten in verschiedenen allgemeinen Sprachaufgaben gezeigt hat, ist seine Leistung in spezialisierten Bereichen wie der Medizin unbekannt. Zu diesem Zweck bietet dieser Bericht eine umfassende Erkundung von o1 in verschiedenen medizinischen Szenarien und untersucht 3 Schlüsselaspekte: Verständnis, Schlussfolgerung und Mehrsprachigkeit. Insbesondere umfasst unsere Bewertung 6 Aufgaben unter Verwendung von Daten aus 37 medizinischen Datensätzen, darunter zwei neu erstellte und anspruchsvollere Frage-Antwort-Aufgaben basierend auf professionellen medizinischen Quizfragen des New England Journal of Medicine (NEJM) und The Lancet. Diese Datensätze bieten eine größere klinische Relevanz im Vergleich zu Standard-Medizin-Frage-Antwort-Benchmarks wie MedQA und lassen sich effektiver in die klinische Praxis umsetzen. Unsere Analyse von o1 legt nahe, dass die verbesserte Schlussfolgerungsfähigkeit von LLMs ihre Fähigkeit, verschiedene medizinische Anweisungen zu verstehen und komplexe klinische Szenarien zu durchdenken, erheblich verbessern kann. Besonders hervorzuheben ist, dass o1 die vorherige GPT-4 in der Genauigkeit durchschnittlich um 6,2% und 6,6% über 19 Datensätze und zwei neu erstellte komplexe QA-Szenarien übertrifft. Gleichzeitig identifizieren wir mehrere Schwächen sowohl in der Modellfähigkeit als auch in den bestehenden Bewertungsprotokollen, darunter Halluzination, inkonsistente Mehrsprachigkeit und unterschiedliche Metriken zur Bewertung. Wir veröffentlichen unsere Rohdaten und Modellausgaben unter https://ucsc-vlaa.github.io/o1_medicine/ für zukünftige Forschung.
English
Large language models (LLMs) have exhibited remarkable capabilities across
various domains and tasks, pushing the boundaries of our knowledge in learning
and cognition. The latest model, OpenAI's o1, stands out as the first LLM with
an internalized chain-of-thought technique using reinforcement learning
strategies. While it has demonstrated surprisingly strong capabilities on
various general language tasks, its performance in specialized fields such as
medicine remains unknown. To this end, this report provides a comprehensive
exploration of o1 on different medical scenarios, examining 3 key aspects:
understanding, reasoning, and multilinguality. Specifically, our evaluation
encompasses 6 tasks using data from 37 medical datasets, including two newly
constructed and more challenging question-answering (QA) tasks based on
professional medical quizzes from the New England Journal of Medicine (NEJM)
and The Lancet. These datasets offer greater clinical relevance compared to
standard medical QA benchmarks such as MedQA, translating more effectively into
real-world clinical utility. Our analysis of o1 suggests that the enhanced
reasoning ability of LLMs may (significantly) benefit their capability to
understand various medical instructions and reason through complex clinical
scenarios. Notably, o1 surpasses the previous GPT-4 in accuracy by an average
of 6.2% and 6.6% across 19 datasets and two newly created complex QA scenarios.
But meanwhile, we identify several weaknesses in both the model capability and
the existing evaluation protocols, including hallucination, inconsistent
multilingual ability, and discrepant metrics for evaluation. We release our raw
data and model outputs at https://ucsc-vlaa.github.io/o1_medicine/ for future
research.Summary
AI-Generated Summary