ChatPaper.aiChatPaper

Des LLM en bonne santé ? Évaluation des connaissances des LLM sur les informations de santé publique du gouvernement britannique

Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

May 9, 2025
Auteurs: Joshua Harris, Fan Grayson, Felix Feldman, Timothy Laurence, Toby Nonnenmacher, Oliver Higgins, Leo Loman, Selina Patel, Thomas Finnie, Samuel Collins, Michael Borowitz
cs.AI

Résumé

Alors que les modèles de langage de grande taille (LLM) deviennent largement accessibles, une compréhension détaillée de leurs connaissances dans des domaines spécifiques devient nécessaire pour une utilisation réussie dans le monde réel. Ceci est particulièrement critique dans le domaine de la santé publique, où l'incapacité à récupérer des informations pertinentes, précises et actuelles pourrait avoir un impact significatif sur les résidents du Royaume-Uni. Cependant, on sait actuellement peu de choses sur les connaissances des LLM concernant les informations de santé publique du gouvernement britannique. Pour résoudre ce problème, cet article introduit un nouveau benchmark, PubHealthBench, comprenant plus de 8000 questions pour évaluer les réponses des LLM à des questions à choix multiples (MCQA) et à des requêtes de santé publique en format libre, créées via un pipeline automatisé. Nous publions également un nouveau jeu de données des documents de directives de santé publique du gouvernement britannique utilisés comme texte source pour PubHealthBench. En évaluant 24 LLM sur PubHealthBench, nous constatons que les derniers LLM privés (GPT-4.5, GPT-4.1 et o1) possèdent un haut degré de connaissances, atteignant plus de 90% dans le cadre MCQA, et surpassent les humains utilisant rapidement un moteur de recherche. Cependant, dans le cadre de réponses libres, nous observons une performance plus faible, aucun modèle n'atteignant plus de 75%. Par conséquent, bien qu'il y ait des signes prometteurs que les LLM de pointe (SOTA) constituent une source d'informations de santé publique de plus en plus précise, des mesures de sécurité supplémentaires ou des outils pourraient encore être nécessaires lors de la fourniture de réponses libres sur des sujets de santé publique.
English
As Large Language Models (LLMs) become widely accessible, a detailed understanding of their knowledge within specific domains becomes necessary for successful real world use. This is particularly critical in public health, where failure to retrieve relevant, accurate, and current information could significantly impact UK residents. However, currently little is known about LLM knowledge of UK Government public health information. To address this issue, this paper introduces a new benchmark, PubHealthBench, with over 8000 questions for evaluating LLMs' Multiple Choice Question Answering (MCQA) and free form responses to public health queries, created via an automated pipeline. We also release a new dataset of the extracted UK Government public health guidance documents used as source text for PubHealthBench. Assessing 24 LLMs on PubHealthBench we find the latest private LLMs (GPT-4.5, GPT-4.1 and o1) have a high degree of knowledge, achieving >90% in the MCQA setup, and outperform humans with cursory search engine use. However, in the free form setup we see lower performance with no model scoring >75%. Therefore, whilst there are promising signs that state of the art (SOTA) LLMs are an increasingly accurate source of public health information, additional safeguards or tools may still be needed when providing free form responses on public health topics.

Summary

AI-Generated Summary

PDF103May 12, 2025