¿LLMs saludables? Evaluación del conocimiento de los LLMs sobre la información de salud pública del gobierno del Reino Unido

Resumen

A medida que los Modelos de Lenguaje de Gran Escala (LLMs) se vuelven ampliamente accesibles, es necesario comprender en detalle su conocimiento dentro de dominios específicos para un uso exitoso en el mundo real. Esto es particularmente crítico en el ámbito de la salud pública, donde la incapacidad de recuperar información relevante, precisa y actualizada podría tener un impacto significativo en los residentes del Reino Unido. Sin embargo, actualmente se sabe poco sobre el conocimiento de los LLMs respecto a la información de salud pública del Gobierno del Reino Unido. Para abordar este problema, este artículo presenta un nuevo punto de referencia, PubHealthBench, con más de 8000 preguntas para evaluar las respuestas de los LLMs en preguntas de opción múltiple (MCQA) y respuestas de forma libre a consultas de salud pública, creadas mediante una canalización automatizada. También publicamos un nuevo conjunto de datos de los documentos de orientación de salud pública del Gobierno del Reino Unido extraídos, utilizados como texto fuente para PubHealthBench. Al evaluar 24 LLMs en PubHealthBench, encontramos que los últimos LLMs privados (GPT-4.5, GPT-4.1 y o1) tienen un alto grado de conocimiento, logrando más del 90% en la configuración de MCQA, y superan a los humanos con un uso superficial de motores de búsqueda. Sin embargo, en la configuración de respuestas de forma libre observamos un rendimiento más bajo, sin que ningún modelo supere el 75%. Por lo tanto, aunque hay señales prometedoras de que los LLMs de última generación (SOTA) son una fuente cada vez más precisa de información de salud pública, aún pueden ser necesarias salvaguardias o herramientas adicionales al proporcionar respuestas de forma libre sobre temas de salud pública.

English

As Large Language Models (LLMs) become widely accessible, a detailed understanding of their knowledge within specific domains becomes necessary for successful real world use. This is particularly critical in public health, where failure to retrieve relevant, accurate, and current information could significantly impact UK residents. However, currently little is known about LLM knowledge of UK Government public health information. To address this issue, this paper introduces a new benchmark, PubHealthBench, with over 8000 questions for evaluating LLMs' Multiple Choice Question Answering (MCQA) and free form responses to public health queries, created via an automated pipeline. We also release a new dataset of the extracted UK Government public health guidance documents used as source text for PubHealthBench. Assessing 24 LLMs on PubHealthBench we find the latest private LLMs (GPT-4.5, GPT-4.1 and o1) have a high degree of knowledge, achieving >90% in the MCQA setup, and outperform humans with cursory search engine use. However, in the free form setup we see lower performance with no model scoring >75%. Therefore, whilst there are promising signs that state of the art (SOTA) LLMs are an increasingly accurate source of public health information, additional safeguards or tools may still be needed when providing free form responses on public health topics.

¿LLMs saludables? Evaluación del conocimiento de los LLMs sobre la información de salud pública del gobierno del Reino Unido

Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

Resumen

Support