Gesunde LLMs? Bewertung des Wissens von LLMs über öffentliche Gesundheitsinformationen der britischen Regierung
Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information
May 9, 2025
Autoren: Joshua Harris, Fan Grayson, Felix Feldman, Timothy Laurence, Toby Nonnenmacher, Oliver Higgins, Leo Loman, Selina Patel, Thomas Finnie, Samuel Collins, Michael Borowitz
cs.AI
Zusammenfassung
Da Large Language Models (LLMs) immer breiter zugänglich werden, ist ein detailliertes Verständnis ihres Wissens in spezifischen Domänen für eine erfolgreiche Anwendung in der realen Welt notwendig. Dies ist insbesondere im Bereich der öffentlichen Gesundheit von entscheidender Bedeutung, da das Versagen, relevante, genaue und aktuelle Informationen abzurufen, erhebliche Auswirkungen auf die Bewohner des Vereinigten Königreichs haben könnte. Bislang ist jedoch wenig über das Wissen von LLMs in Bezug auf die öffentlichen Gesundheitsinformationen der britischen Regierung bekannt. Um dieses Problem zu adressieren, stellt dieses Papier einen neuen Benchmark, PubHealthBench, vor, der über 8000 Fragen zur Bewertung der Multiple-Choice-Fragebeantwortung (MCQA) und der freien Antworten von LLMs auf Fragen zur öffentlichen Gesundheit enthält, die über eine automatisierte Pipeline erstellt wurden. Wir veröffentlichen zudem einen neuen Datensatz der extrahierten öffentlichen Gesundheitsleitlinien der britischen Regierung, die als Quelltexte für PubHealthBench verwendet wurden. Bei der Bewertung von 24 LLMs auf PubHealthBench stellen wir fest, dass die neuesten privaten LLMs (GPT-4.5, GPT-4.1 und o1) über ein hohes Maß an Wissen verfügen und im MCQA-Setup >90 % erreichen, wobei sie Menschen mit oberflächlicher Nutzung von Suchmaschinen übertreffen. Im freien Antwortsetup sehen wir jedoch eine geringere Leistung, wobei kein Modell >75 % erreicht. Daher gibt es zwar vielversprechende Anzeichen dafür, dass state-of-the-art (SOTA) LLMs eine zunehmend genaue Quelle für Informationen zur öffentlichen Gesundheit darstellen, könnten jedoch zusätzliche Sicherheitsvorkehrungen oder Werkzeuge erforderlich sein, wenn freie Antworten zu Themen der öffentlichen Gesundheit bereitgestellt werden.
English
As Large Language Models (LLMs) become widely accessible, a detailed
understanding of their knowledge within specific domains becomes necessary for
successful real world use. This is particularly critical in public health,
where failure to retrieve relevant, accurate, and current information could
significantly impact UK residents. However, currently little is known about LLM
knowledge of UK Government public health information. To address this issue,
this paper introduces a new benchmark, PubHealthBench, with over 8000 questions
for evaluating LLMs' Multiple Choice Question Answering (MCQA) and free form
responses to public health queries, created via an automated pipeline. We also
release a new dataset of the extracted UK Government public health guidance
documents used as source text for PubHealthBench. Assessing 24 LLMs on
PubHealthBench we find the latest private LLMs (GPT-4.5, GPT-4.1 and o1) have a
high degree of knowledge, achieving >90% in the MCQA setup, and outperform
humans with cursory search engine use. However, in the free form setup we see
lower performance with no model scoring >75%. Therefore, whilst there are
promising signs that state of the art (SOTA) LLMs are an increasingly accurate
source of public health information, additional safeguards or tools may still
be needed when providing free form responses on public health topics.Summary
AI-Generated Summary