Предварительное исследование o1 в медицине: находимся ли мы ближе к искусственному интеллекту врача?

Аннотация

Большие языковые модели (LLM) проявили замечательные способности в различных областях и задачах, выходя за пределы наших знаний в области обучения и когнитивики. Последняя модель, o1 от OpenAI, выделяется как первая LLM с внутренней техникой цепочки мыслей, использующей стратегии обучения с подкреплением. Хотя она продемонстрировала удивительно сильные способности в различных общих языковых задачах, ее производительность в специализированных областях, таких как медицина, остается неизвестной. В этом отчете представлено всестороннее исследование o1 в различных медицинских сценариях, рассматривая 3 ключевых аспекта: понимание, рассуждение и мультиязычность. В частности, наша оценка охватывает 6 задач, используя данные из 37 медицинских наборов данных, включая два недавно созданных и более сложных задания по вопросам и ответам (QA) на основе профессиональных медицинских викторин из New England Journal of Medicine (NEJM) и The Lancet. Эти наборы данных предлагают большую клиническую значимость по сравнению с стандартными бенчмарками медицинских QA, такими как MedQA, более эффективно переносясь на практическую клиническую полезность. Наш анализ o1 показывает, что улучшенная способность к рассуждению LLM может значительно повысить их способность понимать различные медицинские инструкции и рассуждать через сложные клинические сценарии. Заметно, что o1 превосходит предыдущий GPT-4 по точности в среднем на 6,2% и 6,6% по 19 наборам данных и двум недавно созданным сложным сценариям QA. Однако мы выявляем несколько слабостей как в способности модели, так и в существующих протоколах оценки, включая галлюцинации, несогласованную мультиязычную способность и различные метрики оценки. Мы публикуем наши исходные данные и результаты модели по адресу https://ucsc-vlaa.github.io/o1_medicine/ для будущих исследований.

English

Large language models (LLMs) have exhibited remarkable capabilities across various domains and tasks, pushing the boundaries of our knowledge in learning and cognition. The latest model, OpenAI's o1, stands out as the first LLM with an internalized chain-of-thought technique using reinforcement learning strategies. While it has demonstrated surprisingly strong capabilities on various general language tasks, its performance in specialized fields such as medicine remains unknown. To this end, this report provides a comprehensive exploration of o1 on different medical scenarios, examining 3 key aspects: understanding, reasoning, and multilinguality. Specifically, our evaluation encompasses 6 tasks using data from 37 medical datasets, including two newly constructed and more challenging question-answering (QA) tasks based on professional medical quizzes from the New England Journal of Medicine (NEJM) and The Lancet. These datasets offer greater clinical relevance compared to standard medical QA benchmarks such as MedQA, translating more effectively into real-world clinical utility. Our analysis of o1 suggests that the enhanced reasoning ability of LLMs may (significantly) benefit their capability to understand various medical instructions and reason through complex clinical scenarios. Notably, o1 surpasses the previous GPT-4 in accuracy by an average of 6.2% and 6.6% across 19 datasets and two newly created complex QA scenarios. But meanwhile, we identify several weaknesses in both the model capability and the existing evaluation protocols, including hallucination, inconsistent multilingual ability, and discrepant metrics for evaluation. We release our raw data and model outputs at https://ucsc-vlaa.github.io/o1_medicine/ for future research.

Предварительное исследование o1 в медицине: находимся ли мы ближе к искусственному интеллекту врача?

A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?

Аннотация

Support