Здоровые языковые модели? Оценка знаний языковых моделей о публичной информации в области здравоохранения правительства Великобритании
Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information
May 9, 2025
Авторы: Joshua Harris, Fan Grayson, Felix Feldman, Timothy Laurence, Toby Nonnenmacher, Oliver Higgins, Leo Loman, Selina Patel, Thomas Finnie, Samuel Collins, Michael Borowitz
cs.AI
Аннотация
По мере того как крупные языковые модели (LLM) становятся широко доступными, детальное понимание их знаний в конкретных областях становится необходимым для успешного применения в реальном мире. Это особенно важно в сфере общественного здравоохранения, где невозможность извлечения актуальной, точной и современной информации может существенно повлиять на жителей Великобритании. Однако в настоящее время мало что известно о знаниях LLM в отношении информации о государственном здравоохранении Великобритании. Для решения этой проблемы в данной статье представлен новый эталонный тест PubHealthBench, содержащий более 8000 вопросов для оценки способности LLM отвечать на вопросы с множественным выбором (MCQA) и давать свободные ответы на запросы, связанные с общественным здравоохранением, созданный с использованием автоматизированного процесса. Мы также публикуем новый набор данных, включающий извлеченные документы руководств по общественному здравоохранению правительства Великобритании, которые использовались в качестве исходного текста для PubHealthBench. Оценивая 24 LLM на основе PubHealthBench, мы обнаружили, что последние частные LLM (GPT-4.5, GPT-4.1 и o1) обладают высоким уровнем знаний, достигая более 90% в тесте MCQA, и превосходят людей, использующих поверхностный поиск в интернете. Однако в тесте с свободными ответами наблюдаются более низкие результаты, причем ни одна модель не набрала более 75%. Таким образом, хотя есть обнадеживающие признаки того, что современные LLM становятся все более точным источником информации в области общественного здравоохранения, дополнительные меры предосторожности или инструменты могут все еще быть необходимы при предоставлении свободных ответов на темы, связанные с общественным здравоохранением.
English
As Large Language Models (LLMs) become widely accessible, a detailed
understanding of their knowledge within specific domains becomes necessary for
successful real world use. This is particularly critical in public health,
where failure to retrieve relevant, accurate, and current information could
significantly impact UK residents. However, currently little is known about LLM
knowledge of UK Government public health information. To address this issue,
this paper introduces a new benchmark, PubHealthBench, with over 8000 questions
for evaluating LLMs' Multiple Choice Question Answering (MCQA) and free form
responses to public health queries, created via an automated pipeline. We also
release a new dataset of the extracted UK Government public health guidance
documents used as source text for PubHealthBench. Assessing 24 LLMs on
PubHealthBench we find the latest private LLMs (GPT-4.5, GPT-4.1 and o1) have a
high degree of knowledge, achieving >90% in the MCQA setup, and outperform
humans with cursory search engine use. However, in the free form setup we see
lower performance with no model scoring >75%. Therefore, whilst there are
promising signs that state of the art (SOTA) LLMs are an increasingly accurate
source of public health information, additional safeguards or tools may still
be needed when providing free form responses on public health topics.Summary
AI-Generated Summary