Языковые модели и применение второго мнения: кейс "Карманный профессионал"
Language Models And A Second Opinion Use Case: The Pocket Professional
October 27, 2024
Авторы: David Noever
cs.AI
Аннотация
Данное исследование тестирует роль Больших Языковых Моделей (Large Language Models, LLMs) в качестве формальных инструментов второго мнения в профессиональном принятии решений, особенно сосредотачиваясь на сложных медицинских случаях, когда даже опытные врачи обращаются за консультацией к коллегам. В работе было проанализировано 183 сложных медицинских случая с Medscape за 20-месячный период, проверяя производительность нескольких LLMs по сравнению с ответами врачей, полученными через массовую консультацию. Одним из ключевых результатов было высокое общее значение возможной точности в последних базовых моделях (>80% точности по сравнению с консенсусным мнением), что превосходит большинство человеческих метрик, представленных на тех же клинических случаях (450 страниц профилей пациентов, результаты тестов). Исследование оценивает разрыв в производительности LLMs между простыми случаями (>81% точности) и сложными сценариями (43% точности), особенно в случаях, вызывающих значительные дебаты среди человеческих врачей. Исследование демонстрирует, что LLMs могут быть ценными как генераторы полных дифференциальных диагнозов, а не как основные диагностические инструменты, что потенциально может помочь противодействовать когнитивным предвзятостям в клиническом принятии решений, снизить когнитивную нагрузку и, таким образом, устранить некоторые источники медицинских ошибок. Включение второго сравнительного юридического набора данных (дела Верховного Суда, N=21) обеспечивает дополнительный эмпирический контекст использования ИИ для поощрения вторых мнений, хотя эти юридические вызовы оказались значительно более легкими для анализа LLMs. Помимо оригинальных вкладов в эмпирические доказательства точности LLMs, исследование собрало новый бенчмарк для оценки надежности спорных вопросов и ответов между LLMs и несогласными человеческими практикующими. Эти результаты подтверждают, что оптимальное применение LLMs в профессиональных средах может значительно отличаться от текущих подходов, акцентирующих автоматизацию рутинообразных задач.
English
This research tests the role of Large Language Models (LLMs) as formal second
opinion tools in professional decision-making, particularly focusing on complex
medical cases where even experienced physicians seek peer consultation. The
work analyzed 183 challenging medical cases from Medscape over a 20-month
period, testing multiple LLMs' performance against crowd-sourced physician
responses. A key finding was the high overall score possible in the latest
foundational models (>80% accuracy compared to consensus opinion), which
exceeds most human metrics reported on the same clinical cases (450 pages of
patient profiles, test results). The study rates the LLMs' performance
disparity between straightforward cases (>81% accuracy) and complex scenarios
(43% accuracy), particularly in these cases generating substantial debate among
human physicians. The research demonstrates that LLMs may be valuable as
generators of comprehensive differential diagnoses rather than as primary
diagnostic tools, potentially helping to counter cognitive biases in clinical
decision-making, reduce cognitive loads, and thus remove some sources of
medical error. The inclusion of a second comparative legal dataset (Supreme
Court cases, N=21) provides added empirical context to the AI use to foster
second opinions, though these legal challenges proved considerably easier for
LLMs to analyze. In addition to the original contributions of empirical
evidence for LLM accuracy, the research aggregated a novel benchmark for others
to score highly contested question and answer reliability between both LLMs and
disagreeing human practitioners. These results suggest that the optimal
deployment of LLMs in professional settings may differ substantially from
current approaches that emphasize automation of routine tasks.Summary
AI-Generated Summary