AfriMed-QA: 팬-아프리카, 다중 전문의 의료 질문 응답 벤치마크 데이터셋
AfriMed-QA: A Pan-African, Multi-Specialty, Medical Question-Answering Benchmark Dataset
November 23, 2024
저자: Tobi Olatunji, Charles Nimo, Abraham Owodunni, Tassallah Abdullahi, Emmanuel Ayodele, Mardhiyah Sanni, Chinemelu Aka, Folafunmi Omofoye, Foutse Yuehgoh, Timothy Faniran, Bonaventure F. P. Dossou, Moshood Yekini, Jonas Kemp, Katherine Heller, Jude Chidubem Omeke, Chidi Asuzu MD, Naome A. Etori, Aimérou Ndiaye, Ifeoma Okoh, Evans Doe Ocansey, Wendy Kinara, Michael Best, Irfan Essa, Stephen Edward Moore, Chris Fourie, Mercy Nyamewaa Asiedu
cs.AI
초록
최근 의료 다지선다 문제(MCQ) 벤치마크에서 대형 언어 모델(LLM)의 성능 향상이 글로벌 의료 공급자 및 환자들의 관심을 자극했습니다. 특히 의사 부족과 전문의 부족으로 심각한 상황에 직면한 저소득 및 중간소득 국가(LMICs)에서 LLM은 의료 접근성을 향상시키고 비용을 줄일 수 있는 잠재적으로 확장 가능한 방안을 제공합니다. 그러나 아프리카 대륙 전역을 포함한 Global South에서의 효과는 아직 입증되지 않았습니다. 본 연구에서는 아프리카 전역의 영어 다학제 의료 질문-답변(QA) 데이터셋인 AfriMed-QA를 소개합니다. 이 데이터셋은 16개국의 60개 이상 의료학교에서 유래된 15,000개의 질문(개방형 및 폐쇄형)으로, 32가지 의료 전문 분야를 다룹니다. 또한 30개의 LLM을 정확성 및 인구 편향을 포함한 여러 가지 면에서 평가합니다. 결과는 전문 분야 및 지리적 위치에 따라 상당한 성능 차이가 있으며, MCQ 성능은 분명히 USMLE(MedQA)에 미치지 못합니다. 생물의학적 LLM은 일반 모델보다 성능이 떨어지며, 작은 엣지 친화적 LLM은 합격 점수를 달성하기 어려워 합니다. 흥미로운 점은 인간 평가에서 임상 응답과 비교했을 때 LLM 응답 및 설명에 대한 일관된 소비자 선호도가 나타난다는 것입니다.
English
Recent advancements in large language model(LLM) performance on medical
multiple choice question (MCQ) benchmarks have stimulated interest from
healthcare providers and patients globally. Particularly in low-and
middle-income countries (LMICs) facing acute physician shortages and lack of
specialists, LLMs offer a potentially scalable pathway to enhance healthcare
access and reduce costs. However, their effectiveness in the Global South,
especially across the African continent, remains to be established. In this
work, we introduce AfriMed-QA, the first large scale Pan-African English
multi-specialty medical Question-Answering (QA) dataset, 15,000 questions (open
and closed-ended) sourced from over 60 medical schools across 16 countries,
covering 32 medical specialties. We further evaluate 30 LLMs across multiple
axes including correctness and demographic bias. Our findings show significant
performance variation across specialties and geographies, MCQ performance
clearly lags USMLE (MedQA). We find that biomedical LLMs underperform general
models and smaller edge-friendly LLMs struggle to achieve a passing score.
Interestingly, human evaluations show a consistent consumer preference for LLM
answers and explanations when compared with clinician answers.Summary
AI-Generated Summary