ChatPaper.aiChatPaper

LLM in salute? Valutazione delle conoscenze degli LLM sulle informazioni di salute pubblica del governo britannico

Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

May 9, 2025
Autori: Joshua Harris, Fan Grayson, Felix Feldman, Timothy Laurence, Toby Nonnenmacher, Oliver Higgins, Leo Loman, Selina Patel, Thomas Finnie, Samuel Collins, Michael Borowitz
cs.AI

Abstract

Man mano che i Large Language Models (LLM) diventano ampiamente accessibili, una comprensione dettagliata della loro conoscenza in domini specifici diventa necessaria per un utilizzo efficace nel mondo reale. Questo è particolarmente critico nel campo della salute pubblica, dove il mancato recupero di informazioni rilevanti, accurate e aggiornate potrebbe avere un impatto significativo sui residenti del Regno Unito. Tuttavia, attualmente si sa poco sulla conoscenza degli LLM riguardo alle informazioni sulla salute pubblica del governo britannico. Per affrontare questo problema, questo articolo introduce un nuovo benchmark, PubHealthBench, con oltre 8000 domande per valutare le risposte degli LLM a domande a scelta multipla (MCQA) e a risposte libere su temi di salute pubblica, creato tramite una pipeline automatizzata. Rilasciamo inoltre un nuovo dataset dei documenti di orientamento sulla salute pubblica del governo britannico estratti e utilizzati come testo sorgente per PubHealthBench. Valutando 24 LLM su PubHealthBench, scopriamo che i più recenti LLM privati (GPT-4.5, GPT-4.1 e o1) possiedono un elevato grado di conoscenza, raggiungendo oltre il 90% nel setup MCQA, e superano gli esseri umani che utilizzano i motori di ricerca in modo superficiale. Tuttavia, nel setup a risposta libera osserviamo prestazioni inferiori, con nessun modello che supera il 75%. Pertanto, sebbene ci siano segnali promettenti che gli LLM all'avanguardia (SOTA) siano una fonte sempre più accurata di informazioni sulla salute pubblica, potrebbero essere ancora necessarie ulteriori misure di sicurezza o strumenti quando si forniscono risposte libere su temi di salute pubblica.
English
As Large Language Models (LLMs) become widely accessible, a detailed understanding of their knowledge within specific domains becomes necessary for successful real world use. This is particularly critical in public health, where failure to retrieve relevant, accurate, and current information could significantly impact UK residents. However, currently little is known about LLM knowledge of UK Government public health information. To address this issue, this paper introduces a new benchmark, PubHealthBench, with over 8000 questions for evaluating LLMs' Multiple Choice Question Answering (MCQA) and free form responses to public health queries, created via an automated pipeline. We also release a new dataset of the extracted UK Government public health guidance documents used as source text for PubHealthBench. Assessing 24 LLMs on PubHealthBench we find the latest private LLMs (GPT-4.5, GPT-4.1 and o1) have a high degree of knowledge, achieving >90% in the MCQA setup, and outperform humans with cursory search engine use. However, in the free form setup we see lower performance with no model scoring >75%. Therefore, whilst there are promising signs that state of the art (SOTA) LLMs are an increasingly accurate source of public health information, additional safeguards or tools may still be needed when providing free form responses on public health topics.
PDF153May 12, 2025