Une étude préliminaire de l'IA en médecine : Sommes-nous plus proches d'un médecin basé sur l'IA ?
A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?
September 23, 2024
Auteurs: Yunfei Xie, Juncheng Wu, Haoqin Tu, Siwei Yang, Bingchen Zhao, Yongshuo Zong, Qiao Jin, Cihang Xie, Yuyin Zhou
cs.AI
Résumé
Les grands modèles de langage (LLM) ont montré des capacités remarquables dans divers domaines et tâches, repoussant les limites de nos connaissances en matière d'apprentissage et de cognition. Le dernier modèle, o1 d'OpenAI, se distingue en tant que premier LLM utilisant une technique de chaîne de pensée internalisée grâce à des stratégies d'apprentissage par renforcement. Bien qu'il ait démontré des capacités étonnamment solides dans diverses tâches linguistiques générales, ses performances dans des domaines spécialisés tels que la médecine restent inconnues. Ainsi, ce rapport propose une exploration approfondie de o1 dans différents scénarios médicaux, examinant 3 aspects clés : la compréhension, le raisonnement et la multilinguisme. Plus précisément, notre évaluation englobe 6 tâches utilisant des données provenant de 37 ensembles de données médicales, comprenant deux tâches de questions-réponses (QR) plus difficiles et nouvellement créées basées sur des quiz médicaux professionnels du New England Journal of Medicine (NEJM) et de The Lancet. Ces ensembles de données offrent une plus grande pertinence clinique par rapport aux référentiels de QR médicale standard tels que MedQA, se traduisant plus efficacement en utilité clinique réelle. Notre analyse de o1 suggère que la capacité de raisonnement améliorée des LLM pourrait bénéficier (significativement) de leur capacité à comprendre diverses instructions médicales et à raisonner à travers des scénarios cliniques complexes. Notamment, o1 surpasse le précédent GPT-4 en précision de 6,2 % en moyenne et de 6,6 % à travers 19 ensembles de données et deux scénarios de QR complexes nouvellement créés. Cependant, nous identifions plusieurs faiblesses tant dans la capacité du modèle que dans les protocoles d'évaluation existants, notamment l'hallucination, la capacité multilingue incohérente et les métriques divergentes pour l'évaluation. Nous mettons à disposition nos données brutes et les résultats du modèle sur https://ucsc-vlaa.github.io/o1_medicine/ pour de futures recherches.
English
Large language models (LLMs) have exhibited remarkable capabilities across
various domains and tasks, pushing the boundaries of our knowledge in learning
and cognition. The latest model, OpenAI's o1, stands out as the first LLM with
an internalized chain-of-thought technique using reinforcement learning
strategies. While it has demonstrated surprisingly strong capabilities on
various general language tasks, its performance in specialized fields such as
medicine remains unknown. To this end, this report provides a comprehensive
exploration of o1 on different medical scenarios, examining 3 key aspects:
understanding, reasoning, and multilinguality. Specifically, our evaluation
encompasses 6 tasks using data from 37 medical datasets, including two newly
constructed and more challenging question-answering (QA) tasks based on
professional medical quizzes from the New England Journal of Medicine (NEJM)
and The Lancet. These datasets offer greater clinical relevance compared to
standard medical QA benchmarks such as MedQA, translating more effectively into
real-world clinical utility. Our analysis of o1 suggests that the enhanced
reasoning ability of LLMs may (significantly) benefit their capability to
understand various medical instructions and reason through complex clinical
scenarios. Notably, o1 surpasses the previous GPT-4 in accuracy by an average
of 6.2% and 6.6% across 19 datasets and two newly created complex QA scenarios.
But meanwhile, we identify several weaknesses in both the model capability and
the existing evaluation protocols, including hallucination, inconsistent
multilingual ability, and discrepant metrics for evaluation. We release our raw
data and model outputs at https://ucsc-vlaa.github.io/o1_medicine/ for future
research.Summary
AI-Generated Summary