Gesunde LLMs? Bewertung des Wissens von LLMs über öffentliche Gesundheitsinformationen der britischen Regierung

papers.abstract

Da Large Language Models (LLMs) immer breiter zugänglich werden, ist ein detailliertes Verständnis ihres Wissens in spezifischen Domänen für eine erfolgreiche Anwendung in der realen Welt notwendig. Dies ist insbesondere im Bereich der öffentlichen Gesundheit von entscheidender Bedeutung, da das Versagen, relevante, genaue und aktuelle Informationen abzurufen, erhebliche Auswirkungen auf die Bewohner des Vereinigten Königreichs haben könnte. Bislang ist jedoch wenig über das Wissen von LLMs in Bezug auf die öffentlichen Gesundheitsinformationen der britischen Regierung bekannt. Um dieses Problem zu adressieren, stellt dieses Papier einen neuen Benchmark, PubHealthBench, vor, der über 8000 Fragen zur Bewertung der Multiple-Choice-Fragebeantwortung (MCQA) und der freien Antworten von LLMs auf Fragen zur öffentlichen Gesundheit enthält, die über eine automatisierte Pipeline erstellt wurden. Wir veröffentlichen zudem einen neuen Datensatz der extrahierten öffentlichen Gesundheitsleitlinien der britischen Regierung, die als Quelltexte für PubHealthBench verwendet wurden. Bei der Bewertung von 24 LLMs auf PubHealthBench stellen wir fest, dass die neuesten privaten LLMs (GPT-4.5, GPT-4.1 und o1) über ein hohes Maß an Wissen verfügen und im MCQA-Setup >90 % erreichen, wobei sie Menschen mit oberflächlicher Nutzung von Suchmaschinen übertreffen. Im freien Antwortsetup sehen wir jedoch eine geringere Leistung, wobei kein Modell >75 % erreicht. Daher gibt es zwar vielversprechende Anzeichen dafür, dass state-of-the-art (SOTA) LLMs eine zunehmend genaue Quelle für Informationen zur öffentlichen Gesundheit darstellen, könnten jedoch zusätzliche Sicherheitsvorkehrungen oder Werkzeuge erforderlich sein, wenn freie Antworten zu Themen der öffentlichen Gesundheit bereitgestellt werden.

English

As Large Language Models (LLMs) become widely accessible, a detailed understanding of their knowledge within specific domains becomes necessary for successful real world use. This is particularly critical in public health, where failure to retrieve relevant, accurate, and current information could significantly impact UK residents. However, currently little is known about LLM knowledge of UK Government public health information. To address this issue, this paper introduces a new benchmark, PubHealthBench, with over 8000 questions for evaluating LLMs' Multiple Choice Question Answering (MCQA) and free form responses to public health queries, created via an automated pipeline. We also release a new dataset of the extracted UK Government public health guidance documents used as source text for PubHealthBench. Assessing 24 LLMs on PubHealthBench we find the latest private LLMs (GPT-4.5, GPT-4.1 and o1) have a high degree of knowledge, achieving >90% in the MCQA setup, and outperform humans with cursory search engine use. However, in the free form setup we see lower performance with no model scoring >75%. Therefore, whilst there are promising signs that state of the art (SOTA) LLMs are an increasingly accurate source of public health information, additional safeguards or tools may still be needed when providing free form responses on public health topics.

Gesunde LLMs? Bewertung des Wissens von LLMs über öffentliche Gesundheitsinformationen der britischen Regierung

Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

papers.abstract

Support