ChatPaper.aiChatPaper

Gezonde LLM's? Het benchmarken van de kennis van LLM's over de Britse overheidsinformatie over volksgezondheid

Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

May 9, 2025
Auteurs: Joshua Harris, Fan Grayson, Felix Feldman, Timothy Laurence, Toby Nonnenmacher, Oliver Higgins, Leo Loman, Selina Patel, Thomas Finnie, Samuel Collins, Michael Borowitz
cs.AI

Samenvatting

Naarmate Large Language Models (LLMs) breed toegankelijk worden, is een gedetailleerd begrip van hun kennis binnen specifieke domeinen noodzakelijk voor succesvolle toepassingen in de praktijk. Dit is vooral cruciaal in de volksgezondheid, waar het niet kunnen ophalen van relevante, accurate en actuele informatie een aanzienlijke impact kan hebben op inwoners van het VK. Er is echter momenteel weinig bekend over de kennis van LLMs met betrekking tot overheidsinformatie over volksgezondheid in het VK. Om dit probleem aan te pakken, introduceert dit artikel een nieuwe benchmark, PubHealthBench, met meer dan 8000 vragen voor het evalueren van Multiple Choice Question Answering (MCQA) en vrije antwoorden van LLMs op vragen over volksgezondheid, gecreëerd via een geautomatiseerde pijplijn. We publiceren ook een nieuwe dataset van de geëxtraheerde overheidsdocumenten over volksgezondheid die als brontekst voor PubHealthBench zijn gebruikt. Na het beoordelen van 24 LLMs op PubHealthBench, constateren we dat de nieuwste private LLMs (GPT-4.5, GPT-4.1 en o1) een hoge mate van kennis hebben, met scores van >90% in de MCQA-opstelling, en ze presteren beter dan mensen die oppervlakkig gebruik maken van zoekmachines. In de vrije antwoordopstelling zien we echter lagere prestaties, waarbij geen enkel model een score van >75% behaalt. Hoewel er dus veelbelovende tekenen zijn dat state-of-the-art (SOTA) LLMs een steeds nauwkeurigere bron van informatie over volksgezondheid zijn, kunnen aanvullende veiligheidsmaatregelen of tools nog steeds nodig zijn bij het verstrekken van vrije antwoorden over onderwerpen op het gebied van volksgezondheid.
English
As Large Language Models (LLMs) become widely accessible, a detailed understanding of their knowledge within specific domains becomes necessary for successful real world use. This is particularly critical in public health, where failure to retrieve relevant, accurate, and current information could significantly impact UK residents. However, currently little is known about LLM knowledge of UK Government public health information. To address this issue, this paper introduces a new benchmark, PubHealthBench, with over 8000 questions for evaluating LLMs' Multiple Choice Question Answering (MCQA) and free form responses to public health queries, created via an automated pipeline. We also release a new dataset of the extracted UK Government public health guidance documents used as source text for PubHealthBench. Assessing 24 LLMs on PubHealthBench we find the latest private LLMs (GPT-4.5, GPT-4.1 and o1) have a high degree of knowledge, achieving >90% in the MCQA setup, and outperform humans with cursory search engine use. However, in the free form setup we see lower performance with no model scoring >75%. Therefore, whilst there are promising signs that state of the art (SOTA) LLMs are an increasingly accurate source of public health information, additional safeguards or tools may still be needed when providing free form responses on public health topics.
PDF143May 12, 2025