건강한 대형 언어 모델? 영국 정부 공중보건 정보에 대한 대형 언어 모델의 지식 벤치마킹
Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information
May 9, 2025
저자: Joshua Harris, Fan Grayson, Felix Feldman, Timothy Laurence, Toby Nonnenmacher, Oliver Higgins, Leo Loman, Selina Patel, Thomas Finnie, Samuel Collins, Michael Borowitz
cs.AI
초록
대형 언어 모델(LLMs)이 널리 접근 가능해짐에 따라, 특정 도메인 내에서의 지식에 대한 상세한 이해는 실제 세계에서의 성공적인 활용을 위해 필수적입니다. 이는 특히 공중보건 분야에서 중요하며, 관련성 있고 정확하며 최신 정보를 검색하지 못할 경우 영국 주민들에게 큰 영향을 미칠 수 있습니다. 그러나 현재 영국 정부의 공중보건 정보에 대한 LLM의 지식은 거의 알려져 있지 않습니다. 이 문제를 해결하기 위해, 본 논문은 8000개 이상의 질문으로 구성된 새로운 벤치마크인 PubHealthBench를 소개합니다. 이 벤치마크는 LLM의 객관식 질문 답변(MCQA)과 자유 형식 응답을 평가하기 위해 자동화된 파이프라인을 통해 생성되었습니다. 또한 PubHealthBench의 소스 텍스트로 사용된 영국 정부 공중보건 지침 문서의 새로운 데이터셋도 공개합니다. PubHealthBench에서 24개의 LLM을 평가한 결과, 최신 사설 LLM(GPT-4.5, GPT-4.1 및 o1)은 높은 수준의 지식을 보유하고 있으며, MCQA 설정에서 90% 이상의 성적을 달성하고, 간단한 검색 엔진 사용을 통한 인간을 능가하는 것으로 나타났습니다. 그러나 자유 형식 설정에서는 75% 이상의 점수를 기록한 모델이 없어 낮은 성능을 보였습니다. 따라서, 최첨단(SOTA) LLM이 공중보건 정보의 점점 더 정확한 소스로 자리 잡고 있다는 긍정적인 신호가 있음에도 불구하고, 공중보건 주제에 대한 자유 형식 응답을 제공할 때 추가적인 안전장치나 도구가 여전히 필요할 수 있습니다.
English
As Large Language Models (LLMs) become widely accessible, a detailed
understanding of their knowledge within specific domains becomes necessary for
successful real world use. This is particularly critical in public health,
where failure to retrieve relevant, accurate, and current information could
significantly impact UK residents. However, currently little is known about LLM
knowledge of UK Government public health information. To address this issue,
this paper introduces a new benchmark, PubHealthBench, with over 8000 questions
for evaluating LLMs' Multiple Choice Question Answering (MCQA) and free form
responses to public health queries, created via an automated pipeline. We also
release a new dataset of the extracted UK Government public health guidance
documents used as source text for PubHealthBench. Assessing 24 LLMs on
PubHealthBench we find the latest private LLMs (GPT-4.5, GPT-4.1 and o1) have a
high degree of knowledge, achieving >90% in the MCQA setup, and outperform
humans with cursory search engine use. However, in the free form setup we see
lower performance with no model scoring >75%. Therefore, whilst there are
promising signs that state of the art (SOTA) LLMs are an increasingly accurate
source of public health information, additional safeguards or tools may still
be needed when providing free form responses on public health topics.Summary
AI-Generated Summary