¿LLMs saludables? Evaluación del conocimiento de los LLMs sobre la información de salud pública del gobierno del Reino Unido
Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information
May 9, 2025
Autores: Joshua Harris, Fan Grayson, Felix Feldman, Timothy Laurence, Toby Nonnenmacher, Oliver Higgins, Leo Loman, Selina Patel, Thomas Finnie, Samuel Collins, Michael Borowitz
cs.AI
Resumen
A medida que los Modelos de Lenguaje de Gran Escala (LLMs) se vuelven ampliamente accesibles, es necesario comprender en detalle su conocimiento dentro de dominios específicos para un uso exitoso en el mundo real. Esto es particularmente crítico en el ámbito de la salud pública, donde la incapacidad de recuperar información relevante, precisa y actualizada podría tener un impacto significativo en los residentes del Reino Unido. Sin embargo, actualmente se sabe poco sobre el conocimiento de los LLMs respecto a la información de salud pública del Gobierno del Reino Unido. Para abordar este problema, este artículo presenta un nuevo punto de referencia, PubHealthBench, con más de 8000 preguntas para evaluar las respuestas de los LLMs en preguntas de opción múltiple (MCQA) y respuestas de forma libre a consultas de salud pública, creadas mediante una canalización automatizada. También publicamos un nuevo conjunto de datos de los documentos de orientación de salud pública del Gobierno del Reino Unido extraídos, utilizados como texto fuente para PubHealthBench. Al evaluar 24 LLMs en PubHealthBench, encontramos que los últimos LLMs privados (GPT-4.5, GPT-4.1 y o1) tienen un alto grado de conocimiento, logrando más del 90% en la configuración de MCQA, y superan a los humanos con un uso superficial de motores de búsqueda. Sin embargo, en la configuración de respuestas de forma libre observamos un rendimiento más bajo, sin que ningún modelo supere el 75%. Por lo tanto, aunque hay señales prometedoras de que los LLMs de última generación (SOTA) son una fuente cada vez más precisa de información de salud pública, aún pueden ser necesarias salvaguardias o herramientas adicionales al proporcionar respuestas de forma libre sobre temas de salud pública.
English
As Large Language Models (LLMs) become widely accessible, a detailed
understanding of their knowledge within specific domains becomes necessary for
successful real world use. This is particularly critical in public health,
where failure to retrieve relevant, accurate, and current information could
significantly impact UK residents. However, currently little is known about LLM
knowledge of UK Government public health information. To address this issue,
this paper introduces a new benchmark, PubHealthBench, with over 8000 questions
for evaluating LLMs' Multiple Choice Question Answering (MCQA) and free form
responses to public health queries, created via an automated pipeline. We also
release a new dataset of the extracted UK Government public health guidance
documents used as source text for PubHealthBench. Assessing 24 LLMs on
PubHealthBench we find the latest private LLMs (GPT-4.5, GPT-4.1 and o1) have a
high degree of knowledge, achieving >90% in the MCQA setup, and outperform
humans with cursory search engine use. However, in the free form setup we see
lower performance with no model scoring >75%. Therefore, whilst there are
promising signs that state of the art (SOTA) LLMs are an increasingly accurate
source of public health information, additional safeguards or tools may still
be needed when providing free form responses on public health topics.Summary
AI-Generated Summary