ChatPaper.aiChatPaper

LLMs Saudáveis? Avaliando o Conhecimento de LLMs sobre Informações de Saúde Pública do Governo do Reino Unido

Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

May 9, 2025
Autores: Joshua Harris, Fan Grayson, Felix Feldman, Timothy Laurence, Toby Nonnenmacher, Oliver Higgins, Leo Loman, Selina Patel, Thomas Finnie, Samuel Collins, Michael Borowitz
cs.AI

Resumo

À medida que os Modelos de Linguagem de Grande Escala (LLMs) se tornam amplamente acessíveis, um entendimento detalhado de seu conhecimento em domínios específicos torna-se necessário para um uso bem-sucedido no mundo real. Isso é particularmente crítico na área de saúde pública, onde a falha em recuperar informações relevantes, precisas e atualizadas pode impactar significativamente os residentes do Reino Unido. No entanto, atualmente pouco se sabe sobre o conhecimento dos LLMs em relação às informações de saúde pública do Governo do Reino Unido. Para abordar essa questão, este artigo introduz um novo benchmark, o PubHealthBench, com mais de 8000 perguntas para avaliar a capacidade dos LLMs em responder a questões de múltipla escolha (MCQA) e a respostas livres a consultas de saúde pública, criadas por meio de um pipeline automatizado. Também disponibilizamos um novo conjunto de dados dos documentos de orientação de saúde pública do Governo do Reino Unido extraídos e usados como texto-fonte para o PubHealthBench. Ao avaliar 24 LLMs no PubHealthBench, descobrimos que os mais recentes LLMs privados (GPT-4.5, GPT-4.1 e o1) possuem um alto grau de conhecimento, alcançando mais de 90% no cenário de MCQA, e superam humanos que utilizam motores de busca de forma superficial. No entanto, no cenário de respostas livres, observamos um desempenho inferior, com nenhum modelo atingindo mais de 75%. Portanto, embora haja sinais promissores de que os LLMs de última geração (SOTA) são uma fonte cada vez mais precisa de informações de saúde pública, ainda podem ser necessárias salvaguardas ou ferramentas adicionais ao fornecer respostas livres sobre tópicos de saúde pública.
English
As Large Language Models (LLMs) become widely accessible, a detailed understanding of their knowledge within specific domains becomes necessary for successful real world use. This is particularly critical in public health, where failure to retrieve relevant, accurate, and current information could significantly impact UK residents. However, currently little is known about LLM knowledge of UK Government public health information. To address this issue, this paper introduces a new benchmark, PubHealthBench, with over 8000 questions for evaluating LLMs' Multiple Choice Question Answering (MCQA) and free form responses to public health queries, created via an automated pipeline. We also release a new dataset of the extracted UK Government public health guidance documents used as source text for PubHealthBench. Assessing 24 LLMs on PubHealthBench we find the latest private LLMs (GPT-4.5, GPT-4.1 and o1) have a high degree of knowledge, achieving >90% in the MCQA setup, and outperform humans with cursory search engine use. However, in the free form setup we see lower performance with no model scoring >75%. Therefore, whilst there are promising signs that state of the art (SOTA) LLMs are an increasingly accurate source of public health information, additional safeguards or tools may still be needed when providing free form responses on public health topics.
PDF153February 8, 2026