健全なLLM?英国政府の公衆衛生情報に関するLLMの知識ベンチマーク
Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information
May 9, 2025
著者: Joshua Harris, Fan Grayson, Felix Feldman, Timothy Laurence, Toby Nonnenmacher, Oliver Higgins, Leo Loman, Selina Patel, Thomas Finnie, Samuel Collins, Michael Borowitz
cs.AI
要旨
大規模言語モデル(LLMs)が広く利用可能になるにつれ、特定のドメインにおけるそれらの知識を詳細に理解することが、実世界での成功した使用に必要となっています。これは特に公衆衛生において重要であり、関連性があり正確で最新の情報を取得できないことは、英国の住民に重大な影響を及ぼす可能性があります。しかし、現在のところ、LLMsが英国政府の公衆衛生情報をどの程度理解しているかについてはほとんど知られていません。この問題に対処するため、本論文では、8000以上の質問を含む新しいベンチマーク「PubHealthBench」を導入し、LLMsの多肢選択問題解答(MCQA)と自由形式の回答を評価するための自動化されたパイプラインを作成しました。また、PubHealthBenchのソーステキストとして使用された英国政府の公衆衛生ガイダンス文書の新しいデータセットも公開します。PubHealthBenchで24のLLMsを評価した結果、最新のプライベートLLMs(GPT-4.5、GPT-4.1、o1)は高い知識を持ち、MCQA設定で90%以上を達成し、簡易的な検索エンジン使用の人間を上回りました。しかし、自由形式の設定では、どのモデルも75%を超えるスコアを達成せず、性能は低くなりました。したがって、最先端(SOTA)のLLMsが公衆衛生情報の正確な情報源としてますます信頼できる兆候が見られる一方で、公衆衛生トピックに関する自由形式の回答を提供する際には、追加の安全策やツールが必要となる可能性があります。
English
As Large Language Models (LLMs) become widely accessible, a detailed
understanding of their knowledge within specific domains becomes necessary for
successful real world use. This is particularly critical in public health,
where failure to retrieve relevant, accurate, and current information could
significantly impact UK residents. However, currently little is known about LLM
knowledge of UK Government public health information. To address this issue,
this paper introduces a new benchmark, PubHealthBench, with over 8000 questions
for evaluating LLMs' Multiple Choice Question Answering (MCQA) and free form
responses to public health queries, created via an automated pipeline. We also
release a new dataset of the extracted UK Government public health guidance
documents used as source text for PubHealthBench. Assessing 24 LLMs on
PubHealthBench we find the latest private LLMs (GPT-4.5, GPT-4.1 and o1) have a
high degree of knowledge, achieving >90% in the MCQA setup, and outperform
humans with cursory search engine use. However, in the free form setup we see
lower performance with no model scoring >75%. Therefore, whilst there are
promising signs that state of the art (SOTA) LLMs are an increasingly accurate
source of public health information, additional safeguards or tools may still
be needed when providing free form responses on public health topics.Summary
AI-Generated Summary